論文の概要: The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective
- arxiv url: http://arxiv.org/abs/2312.12870v2
- Date: Wed, 3 Apr 2024 06:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:27:34.529785
- Title: The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective
- Title(参考訳): 音声・視覚対話グラフ:エゴセントリック・エクソセントリックの視点から
- Authors: Wenqi Jia, Miao Liu, Hao Jiang, Ishwarya Ananthabhotla, James M. Rehg, Vamsi Krishna Ithapu, Ruohan Gao,
- Abstract要約: 本稿では,Ego-Exocentric Conversational Graph Prediction問題を紹介する。
統合型マルチモーダルフレームワーク -AV-CONV(Audio-Visual Conversational Attention)を提案する。
具体的には、時間、オブジェクト間、モダリティ間の表現をモデル化するために、自己認識メカニズムを採用します。
- 参考スコア(独自算出の注目度): 36.09288501153965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the thriving development of research related to egocentric videos has provided a unique perspective for the study of conversational interactions, where both visual and audio signals play a crucial role. While most prior work focus on learning about behaviors that directly involve the camera wearer, we introduce the Ego-Exocentric Conversational Graph Prediction problem, marking the first attempt to infer exocentric conversational interactions from egocentric videos. We propose a unified multi-modal framework -- Audio-Visual Conversational Attention (AV-CONV), for the joint prediction of conversation behaviors -- speaking and listening -- for both the camera wearer as well as all other social partners present in the egocentric video. Specifically, we adopt the self-attention mechanism to model the representations across-time, across-subjects, and across-modalities. To validate our method, we conduct experiments on a challenging egocentric video dataset that includes multi-speaker and multi-conversation scenarios. Our results demonstrate the superior performance of our method compared to a series of baselines. We also present detailed ablation studies to assess the contribution of each component in our model. Check our project page at https://vjwq.github.io/AV-CONV/.
- Abstract(参考訳): 近年、エゴセントリックビデオに関する研究が盛んに発展し、視覚信号と音声信号の両方が重要な役割を果たす会話相互作用の研究にユニークな視点を与えている。
多くの先行研究は、カメラ装着者に直接関わる行動について学ぶことに重点を置いているが、Ego-Exocentric Conversational Graph Prediction問題を導入し、エゴセントリックビデオからエゴセントリックな会話インタラクションを推測する最初の試みである。
本稿では、カメラ装着者だけでなく、エゴセントリックなビデオに登場した他のすべてのソーシャルパートナーに対して、会話行動(会話と聞き取り)を共同で予測するための統合マルチモーダル・フレームワーク、AV-CONVを提案する。
具体的には、時間、オブジェクト間、モダリティ間の表現をモデル化するために、自己認識メカニズムを採用します。
提案手法を検証するために,多話者・多会話シナリオを含む難易度ビデオデータセットの実験を行った。
本研究は,一連のベースラインと比較して,本手法の優れた性能を示すものである。
また,本モデルにおける各成分の寄与を評価するための詳細なアブレーション研究について述べる。
プロジェクトのページはhttps://vjwq.github.io/AV-CONV/にある。
関連論文リスト
- Identification of Conversation Partners from Egocentric Video [0.0]
エゴセントリックなビデオデータは、ユーザの会話相手を特定するために使用することができる。
近年のコンピュータビジョンにおけるデータセットとタスクの導入は、エゴセントリックな観点からの社会的相互作用の分析に向けた進歩を可能にする。
私たちのデータセットは、多様な多会話シナリオのエゴセントリックなビデオ69時間で構成されています。
論文 参考訳(メタデータ) (2024-06-12T11:12:30Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文 参考訳(メタデータ) (2023-03-28T14:52:03Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。