論文の概要: Spherical World-Locking for Audio-Visual Localization in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2408.05364v1
- Date: Fri, 9 Aug 2024 22:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 19:21:55.235087
- Title: Spherical World-Locking for Audio-Visual Localization in Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおける球状ワールドロックによる音像定位
- Authors: Heeseung Yun, Ruohan Gao, Ishwarya Ananthabhotla, Anurag Kumar, Jacob Donley, Chao Li, Gunhee Kim, Vamsi Krishna Ithapu, Calvin Murdock,
- Abstract要約: 我々は,エゴセントリックなシーン表現のための一般的なフレームワークとして,球状ワールドロックを提案する。
従来の2次元平面場を持つ自己中心表現と比較して、SWLは自動による課題を効果的に相殺する。
シーン表現の球面構造を保存する統一エンコーダデコーダトランスアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 53.658928180166534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric videos provide comprehensive contexts for user and scene understanding, spanning multisensory perception to behavioral interaction. We propose Spherical World-Locking (SWL) as a general framework for egocentric scene representation, which implicitly transforms multisensory streams with respect to measurements of head orientation. Compared to conventional head-locked egocentric representations with a 2D planar field-of-view, SWL effectively offsets challenges posed by self-motion, allowing for improved spatial synchronization between input modalities. Using a set of multisensory embeddings on a worldlocked sphere, we design a unified encoder-decoder transformer architecture that preserves the spherical structure of the scene representation, without requiring expensive projections between image and world coordinate systems. We evaluate the effectiveness of the proposed framework on multiple benchmark tasks for egocentric video understanding, including audio-visual active speaker localization, auditory spherical source localization, and behavior anticipation in everyday activities.
- Abstract(参考訳): エゴセントリックなビデオは、ユーザとシーンの理解のための包括的なコンテキストを提供し、多感的な知覚から行動的相互作用にまたがる。
本研究では,自己中心的なシーン表現のための一般的なフレームワークとして,球状世界ロッキング(SWL)を提案する。
従来の2次元平面場を持つ自己中心表現と比較して、SWLは自己運動によって生じる課題を効果的にオフセットし、入力モダリティ間の空間的同期を改善することができる。
ワールドロックされた球面上の多感覚埋め込みを用いて、画像と世界座標系の間の高価な投影を必要とせず、シーン表現の球面構造を保存する統一エンコーダ・デコーダ変換アーキテクチャを設計する。
本研究では,音声-視覚的アクティブな話者定位,聴覚球面音源定位,日常生活における行動予測など,エゴセントリックな映像理解のための複数のベンチマークタスクにおけるフレームワークの有効性を評価する。
関連論文リスト
- Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Learning What and Where -- Unsupervised Disentangling Location and
Identity Tracking [0.44040106718326594]
教師なしLOCation and Identity Tracking System(Loci)を導入する。
ローチは脳の背腹側経路にインスパイアされ、自己監督された分離機構を用いて、何とどこにも結合する問題に取り組む。
Lociは、より深い説明指向のビデオ処理のステージを設定できる。
論文 参考訳(メタデータ) (2022-05-26T13:30:14Z) - Attentional Separation-and-Aggregation Network for Self-supervised
Depth-Pose Learning in Dynamic Scenes [19.704284616226552]
エピポーラプロジェクションからの自己監督によるラベルなしビデオからの深度とエゴモーションの学習は、視覚に基づくロボットの3D知覚の堅牢性と精度を向上させることができる。
しかし、エゴモーションによって計算される剛性プロジェクションは、移動物体の点などすべてのシーンポイントを表現できないため、これらの領域では誤ったガイダンスが導かれる。
本研究では,アテンショナル・アグリゲーション・ネットワーク(ASANet)を提案する。アテンショナル・アグリゲーション・ネットワークは,アテンション・メカニズムによってシーンの静的・動的特性を識別・抽出することができる。
論文 参考訳(メタデータ) (2020-11-18T16:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。