Fugu-MT 論文翻訳(概要): The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective

論文の概要: The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective

arxiv url: http://arxiv.org/abs/2312.12870v1
Date: Wed, 20 Dec 2023 09:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 16:16:37.386448
Title: The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective
Title（参考訳）: 音声-視覚対話グラフ:エゴセントリック-exocentricの視点から
Authors: Wenqi Jia, Miao Liu, Hao Jiang, Ishwarya Ananthabhotla, James M. Rehg, Vamsi Krishna Ithapu, Ruohan Gao
Abstract要約: 本稿では,Ego-Exocentric Conversational Graph Prediction問題を紹介する。 Av-CONV(Av-Visual Conversational Attention)によるマルチモーダル・マルチタスク統合フレームワークを提案する。具体的には、自己認識機構をカスタマイズして、オブジェクト間、オブジェクト間、モダリティ間の表現をモデル化する。
参考スコア（独自算出の注目度）: 37.90278874061934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, the thriving development of research related to egocentric videos has provided a unique perspective for the study of conversational interactions, where both visual and audio signals play a crucial role. While most prior work focus on learning about behaviors that directly involve the camera wearer, we introduce the Ego-Exocentric Conversational Graph Prediction problem, marking the first attempt to infer exocentric conversational interactions from egocentric videos. We propose a unified multi-modal, multi-task framework -- Audio-Visual Conversational Attention (Av-CONV), for the joint prediction of conversation behaviors -- speaking and listening -- for both the camera wearer as well as all other social partners present in the egocentric video. Specifically, we customize the self-attention mechanism to model the representations across-time, across-subjects, and across-modalities. To validate our method, we conduct experiments on a challenging egocentric video dataset that includes first-person perspective, multi-speaker, and multi-conversation scenarios. Our results demonstrate the superior performance of our method compared to a series of baselines. We also present detailed ablation studies to assess the contribution of each component in our model. Project page: https://vjwq.github.io/AV-CONV/.
Abstract（参考訳）: 近年、エゴセントリックビデオに関する研究が盛んに進展し、視覚信号と音声信号の両方が重要な役割を果たす会話的インタラクションの研究に独自の視点が与えられている。先行研究のほとんどがカメラ装着者に直接関与する行動について学ぶことに集中しているが、私たちはego-exocentric conversational graph prediction問題を紹介し、egocentric videoからexocentric conversational interactionを推測する最初の試みである。我々は、カメラ装着者だけでなく、エゴセントリックビデオに登場した他のすべてのソーシャルパートナーに対して、会話行動(会話と聞き取り)の同時予測のための、マルチモーダル・マルチタスク・フレームワーク(Av-CONV)を提案する。具体的には、自己認識機構をカスタマイズして、オブジェクト間、オブジェクト間、モダリティ間の表現をモデル化する。提案手法を検証するために,一対一視点,複数話者,複数対話シナリオを含む,難易度の高いビデオデータセットの実験を行った。本手法は,一連のベースラインと比較して優れた性能を示す。また, モデルにおける各成分の寄与度を評価するため, 詳細なアブレーション研究を行った。プロジェクトページ: https://vjwq.github.io/AV-CONV/。

関連論文リスト

EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild [20.84372784454967]
EgoSpeakは、エゴセントリックストリーミングビデオにおけるリアルタイム音声開始予測の新しいフレームワークである。話者の1対1の視点から会話をモデル化することにより、EgoSpeakは人間のような対話に向いている。 EgoSpeakはランダムおよびサイレントベースのベースラインをリアルタイムでパフォーマンスする。
論文参考訳（メタデータ） (2025-02-17T04:47:12Z)
EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文参考訳（メタデータ） (2025-01-31T11:48:22Z)
Egocentric and Exocentric Methods: A Short Survey [25.41820386246096]
エゴセントリックな視覚は、カメラ装着者の視点からシーンを捉えます。外見中心の視覚はシーン全体のコンテキストを捉えます。エゴとエクソビューの併用モデリングは、次世代AIエージェントの開発に不可欠である。
論文参考訳（メタデータ） (2024-10-27T22:38:51Z)
Identification of Conversation Partners from Egocentric Video [0.0]
エゴセントリックなビデオデータは、ユーザの会話相手を特定するために使用することができる。近年のコンピュータビジョンにおけるデータセットとタスクの導入は、エゴセントリックな観点からの社会的相互作用の分析に向けた進歩を可能にする。私たちのデータセットは、多様な多会話シナリオのエゴセントリックなビデオ69時間で構成されています。
論文参考訳（メタデータ） (2024-06-12T11:12:30Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文参考訳（メタデータ） (2024-04-08T05:19:28Z)
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文参考訳（メタデータ） (2023-07-10T17:58:17Z)
Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文参考訳（メタデータ） (2023-03-28T14:52:03Z)
Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文参考訳（メタデータ） (2023-03-23T17:43:11Z)
Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文参考訳（メタデータ） (2023-01-26T05:00:09Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文参考訳（メタデータ） (2021-12-27T07:18:50Z)
Look, Listen, and Attend: Co-Attention Network for Self-Supervised Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文参考訳（メタデータ） (2020-08-13T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。