論文の概要: Multi-speaker Attention Alignment for Multimodal Social Interaction
- arxiv url: http://arxiv.org/abs/2511.17952v1
- Date: Sat, 22 Nov 2025 07:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.536552
- Title: Multi-speaker Attention Alignment for Multimodal Social Interaction
- Title(参考訳): マルチモーダルソーシャルインタラクションのためのマルチスピーカアテンションアライメント
- Authors: Liangyang Ouyang, Yifei Huang, Mingfang Zhang, Caixin Kang, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: ビデオにおける社会的相互作用は、言語的および非言語的手がかりの動的相互作用に関する推論を必要とする。
MLLM(Multimodal Large Language Models)は自然の候補であるが、視覚的な入力を追加するだけで、社会的タスクにおいて驚くほど不整合的な利得が得られる。
本稿では,既存のMLLMに組み込むマルチモーダル多話者アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 23.550501177885625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding social interaction in video requires reasoning over a dynamic interplay of verbal and non-verbal cues: who is speaking, to whom, and with what gaze or gestures. While Multimodal Large Language Models (MLLMs) are natural candidates, simply adding visual inputs yields surprisingly inconsistent gains on social tasks. Our quantitative analysis of cross-modal attention inside state-of-the-art MLLMs reveals a core failure mode: in multi-speaker scenes, visual and textual tokens lack speaker-consistent alignment, exhibiting substantially weaker cross-modal attention than in object-centric images. To address this, we propose a multimodal multi-speaker attention alignment method that can be integrated into existing MLLMs. First, we introduce dynamic cross-modal head selection to identify attention heads most responsible for grounding. Then, an adaptive social-aware attention bias, computed from existing attention patterns and speaker locations, is injected into the attention mechanism. This bias reinforces alignment between a speaker's visual representation and their utterances without introducing trainable parameters or architectural changes. We integrate our method into three distinct MLLMs (LLaVA-NeXT-Video, Qwen2.5-VL, and InternVL3) and evaluate on three benchmarks (TVQA+, MMSI, OnlineMMSI). Across four social tasks, results demonstrate that our approach improves the ability of MLLMs and achieves state-of-the-art results. Attention visualizations confirm our method successfully focuses the model on speaker-relevant regions, enabling more robust multi-party social reasoning. Our implementation and model will be available at https://github.com/ut-vision/SocialInteraction.
- Abstract(参考訳): ビデオにおける社会的相互作用を理解するには、誰が話し、誰に、誰に、何を見つめるか、ジェスチャーで、言語的および非言語的手がかりの動的な相互作用を推論する必要がある。
MLLM(Multimodal Large Language Models)は自然の候補であるが、視覚的な入力を追加するだけで、社会的タスクにおいて驚くほど不整合的な利得が得られる。
最先端MLLM内のクロスモーダルアテンションの定量的分析では、マルチスピーカーシーンでは、視覚的およびテキスト的トークンは話者一貫性のアライメントが欠如し、オブジェクト中心の画像よりもはるかに弱いクロスモーダルアテンションが示される。
そこで本稿では,既存のMLLMに組み込むマルチモーダル多話者アライメント手法を提案する。
まず, 接地に最も責任がある頭部を特定するために, 動的クロスモーダルな頭部選択を導入する。
そして、既存の注意パターンや話者位置から算出した適応型社会認識型注意バイアスを注意機構に注入する。
このバイアスは、訓練可能なパラメータやアーキテクチャの変更を導入することなく、話者の視覚的表現と発話のアライメントを強化する。
本手法を3つの異なるMLLM (LLaVA-NeXT-Video, Qwen2.5-VL, InternVL3) に統合し, 3つのベンチマーク (TVQA+, MMSI, OnlineMMSI) で評価する。
4つの社会的課題にまたがって,本手法がMLLMの能力を改善し,最先端の成果をもたらすことを示す。
留意点の可視化により,本手法は話者関連領域に焦点を合わせ,より堅牢なマルチパーティの社会的推論を可能にした。
私たちの実装とモデルはhttps://github.com/ut-vision/SocialInteraction.comで公開されます。
関連論文リスト
- MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - Towards Online Multi-Modal Social Interaction Understanding [36.37278022436327]
本稿では,記録された対話やビデオストリームなどの履歴情報のみを用いて,MMSIタスクをモデルが解決しなければならないオンラインMMSI設定を提案する。
マルチパーティ会話予測とソーシャル・アウェア・ビジュアル・プロンプトという2つの補完的戦略を活用する新しいフレームワークである Online-MMSI-VLM を開発した。
提案手法は最先端の性能を達成し,ベースラインモデルを大幅に上回り,オンラインMMSIにおける有効性を示す。
論文 参考訳(メタデータ) (2025-03-25T17:17:19Z) - VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [114.35537839800372]
音声はマルチモーダル対話システムにおいて重要な役割を担い、視覚と音声の両方にハイパフォーマンスを実装することは依然として重要な課題である。
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強いだけでなく, ASR と TTS モジュールを分離することなく, 音声音声対話を効率的に行うことができる。
論文 参考訳(メタデータ) (2025-01-03T18:59:52Z) - Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations [20.848802791989307]
本稿では,複数の人物間の微粒化動態をモデル化するための3つの新しい課題を紹介する。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
実験では, よりきめ細かい社会相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。