論文の概要: Egocentric Audio-Visual Object Localization
- arxiv url: http://arxiv.org/abs/2303.13471v1
- Date: Thu, 23 Mar 2023 17:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:13:39.771507
- Title: Egocentric Audio-Visual Object Localization
- Title(参考訳): Egocentric Audio-Visual Object Localization
- Authors: Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu
- Abstract要約: 本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 51.434212424829525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally perceive surrounding scenes by unifying sound and sight in a
first-person view. Likewise, machines are advanced to approach human
intelligence by learning with multisensory inputs from an egocentric
perspective. In this paper, we explore the challenging egocentric audio-visual
object localization task and observe that 1) egomotion commonly exists in
first-person recordings, even within a short duration; 2) The out-of-view sound
components can be created while wearers shift their attention. To address the
first problem, we propose a geometry-aware temporal aggregation module to
handle the egomotion explicitly. The effect of egomotion is mitigated by
estimating the temporal geometry transformation and exploiting it to update
visual representations. Moreover, we propose a cascaded feature enhancement
module to tackle the second issue. It improves cross-modal localization
robustness by disentangling visually-indicated audio representation. During
training, we take advantage of the naturally available audio-visual temporal
synchronization as the ``free'' self-supervision to avoid costly labeling. We
also annotate and create the Epic Sounding Object dataset for evaluation
purposes. Extensive experiments show that our method achieves state-of-the-art
localization performance in egocentric videos and can be generalized to diverse
audio-visual scenes.
- Abstract(参考訳): 人間は自然に周囲を知覚し、一対一の視点で音と視界を統一する。
同様に、機械は、エゴセントリックな視点から多感覚入力で学習することで、人間の知性に近づきつつある。
本稿では,エゴセントリックな音像定位課題について検討し,その課題を考察する。
1) ファースト・パーソン・レコーディングには,短時間であっても,一般的に自我が存在している。
2) 装着者が注意を移しながら、外見の音成分を作成できる。
最初の問題に対処するために,エゴモーションを明示的に処理する幾何学的時間的アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することで緩和される。
さらに,第2の課題に取り組むために,ケースケード機能拡張モジュールを提案する。
視覚的に指示された音声表現を分離することで、クロスモーダル局在のロバスト性を向上させる。
トレーニング中、自然に利用可能なオーディオと視覚の時間同期を ``free'' 自己スーパービジョンとして活用し、コストのかかるラベル付けを回避する。
また、評価のためにEpic Sounding Objectデータセットを注釈し、作成します。
広範囲にわたる実験により,エゴセントリックビデオにおける最先端のローカライズ性能を実現し,多様な視聴覚シーンに一般化できることを示した。
関連論文リスト
- Spherical World-Locking for Audio-Visual Localization in Egocentric Videos [53.658928180166534]
我々は,エゴセントリックなシーン表現のための一般的なフレームワークとして,球状ワールドロックを提案する。
従来の2次元平面場を持つ自己中心表現と比較して、SWLは自動による課題を効果的に相殺する。
シーン表現の球面構造を保存する統一エンコーダデコーダトランスアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-08-09T22:29:04Z) - Cross-modal Generative Model for Visual-Guided Binaural Stereo
Generation [18.607236792587614]
本稿では,モノオーディオからステレオ音声を生成するための,視覚的に誘導された生成的敵対的アプローチを提案する。
音声の空間的知覚を測定する尺度を初めて提案する。
提案手法は,2つのデータセットと5つの評価指標に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-13T09:53:14Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization [13.144367063836597]
本稿では,音声活動の検出と局所化結果の堅牢性を実現するための,エンドツーエンドのディープラーニング手法を提案する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-01-06T05:40:16Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。