論文の概要: The Audio-Visual Conversational Graph: From an Egocentric-Exocentric
Perspective
- arxiv url: http://arxiv.org/abs/2312.12870v1
- Date: Wed, 20 Dec 2023 09:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:16:37.386448
- Title: The Audio-Visual Conversational Graph: From an Egocentric-Exocentric
Perspective
- Title(参考訳): 音声-視覚対話グラフ:エゴセントリック-exocentricの視点から
- Authors: Wenqi Jia, Miao Liu, Hao Jiang, Ishwarya Ananthabhotla, James M. Rehg,
Vamsi Krishna Ithapu, Ruohan Gao
- Abstract要約: 本稿では,Ego-Exocentric Conversational Graph Prediction問題を紹介する。
Av-CONV(Av-Visual Conversational Attention)によるマルチモーダル・マルチタスク統合フレームワークを提案する。
具体的には、自己認識機構をカスタマイズして、オブジェクト間、オブジェクト間、モダリティ間の表現をモデル化する。
- 参考スコア(独自算出の注目度): 37.90278874061934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the thriving development of research related to egocentric
videos has provided a unique perspective for the study of conversational
interactions, where both visual and audio signals play a crucial role. While
most prior work focus on learning about behaviors that directly involve the
camera wearer, we introduce the Ego-Exocentric Conversational Graph Prediction
problem, marking the first attempt to infer exocentric conversational
interactions from egocentric videos. We propose a unified multi-modal,
multi-task framework -- Audio-Visual Conversational Attention (Av-CONV), for
the joint prediction of conversation behaviors -- speaking and listening -- for
both the camera wearer as well as all other social partners present in the
egocentric video. Specifically, we customize the self-attention mechanism to
model the representations across-time, across-subjects, and across-modalities.
To validate our method, we conduct experiments on a challenging egocentric
video dataset that includes first-person perspective, multi-speaker, and
multi-conversation scenarios. Our results demonstrate the superior performance
of our method compared to a series of baselines. We also present detailed
ablation studies to assess the contribution of each component in our model.
Project page: https://vjwq.github.io/AV-CONV/.
- Abstract(参考訳): 近年、エゴセントリックビデオに関する研究が盛んに進展し、視覚信号と音声信号の両方が重要な役割を果たす会話的インタラクションの研究に独自の視点が与えられている。
先行研究のほとんどがカメラ装着者に直接関与する行動について学ぶことに集中しているが、私たちはego-exocentric conversational graph prediction問題を紹介し、egocentric videoからexocentric conversational interactionを推測する最初の試みである。
我々は、カメラ装着者だけでなく、エゴセントリックビデオに登場した他のすべてのソーシャルパートナーに対して、会話行動(会話と聞き取り)の同時予測のための、マルチモーダル・マルチタスク・フレームワーク(Av-CONV)を提案する。
具体的には、自己認識機構をカスタマイズして、オブジェクト間、オブジェクト間、モダリティ間の表現をモデル化する。
提案手法を検証するために,一対一視点,複数話者,複数対話シナリオを含む,難易度の高いビデオデータセットの実験を行った。
本手法は,一連のベースラインと比較して優れた性能を示す。
また, モデルにおける各成分の寄与度を評価するため, 詳細なアブレーション研究を行った。
プロジェクトページ: https://vjwq.github.io/AV-CONV/。
関連論文リスト
- INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [11.101103116878438]
本稿では,Dyadic インタラクションのための新しい音声駆動型ヘッド生成フレームワーク INFP を提案する。
INFPは、モーションベースヘッドイミテーションステージとオーディオガイドモーションジェネレーションステージで構成される。
このような研究を円滑に進めるために,インターネットから収集したリッチな対話の大規模データセットであるDyConvを紹介した。
論文 参考訳(メタデータ) (2024-12-05T10:20:34Z) - Identification of Conversation Partners from Egocentric Video [0.0]
エゴセントリックなビデオデータは、ユーザの会話相手を特定するために使用することができる。
近年のコンピュータビジョンにおけるデータセットとタスクの導入は、エゴセントリックな観点からの社会的相互作用の分析に向けた進歩を可能にする。
私たちのデータセットは、多様な多会話シナリオのエゴセントリックなビデオ69時間で構成されています。
論文 参考訳(メタデータ) (2024-06-12T11:12:30Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文 参考訳(メタデータ) (2023-03-28T14:52:03Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。