論文の概要: Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.24484v1
- Date: Wed, 25 Mar 2026 16:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.387571
- Title: Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models
- Title(参考訳): ビデオオンリーToM:マルチモーダル大言語モデルにおける心の理論の強化
- Authors: Siqi Liu, Xinyang Li, Bochao Zou, Junbao Zhuo, Huimin Ma, Jiansheng Chen,
- Abstract要約: VisionToMは、タスク認識推論を強化するために設計された視覚指向の介入フレームワークである。
視覚表現を正しいセマンティックターゲットと整列する介入ベクトルを計算する。
このガイダンスにより、モデルが突発的な言語的先行への依存を減らすことができる。
- 参考スコア(独自算出の注目度): 40.30801020339839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to advance, there is increasing interest in their ability to infer human mental states and demonstrate a human-like Theory of Mind (ToM). Most existing ToM evaluations, however, are centered on text-based inputs, while scenarios relying solely on visual information receive far less attention. This leaves a gap, since real-world human-AI interaction typically requires multimodal understanding. In addition, many current methods regard the model as a black box and rarely probe how its internal attention behaves in multiple-choice question answering (QA). The impact of LLM hallucinations on such tasks is also underexplored from an interpretability perspective. To address these issues, we introduce VisionToM, a vision-oriented intervention framework designed to strengthen task-aware reasoning. The core idea is to compute intervention vectors that align visual representations with the correct semantic targets, thereby steering the model's attention through different layers of visual features. This guidance reduces the model's reliance on spurious linguistic priors, leading to more reliable multimodal language model (MLLM) outputs and better QA performance. Experiments on the EgoToM benchmark-an egocentric, real-world video dataset for ToM with three multiple-choice QA settings-demonstrate that our method substantially improves the ToM abilities of MLLMs. Furthermore, results on an additional open-ended generation task show that VisionToM enables MLLMs to produce free-form explanations that more accurately capture agents' mental states, pushing machine-human collaboration toward greater alignment.
- Abstract(参考訳): 大きな言語モデル(LLM)が進歩を続けるにつれ、人間の精神状態を推測し、人間のような心の理論(ToM)を示す能力への関心が高まっている。
しかし、既存のToM評価のほとんどはテキストベースの入力を中心にしているが、視覚情報のみに依存するシナリオはそれほど注目されていない。
なぜなら、現実世界の人間とAIの相互作用は、通常マルチモーダルな理解を必要とするからである。
さらに、現在の多くの手法では、モデルをブラックボックスとみなし、マルチチョイス質問応答(QA)において、内部の注意がどのように振る舞うかを調査することは稀である。
LLM幻覚がそのようなタスクに与える影響も、解釈可能性の観点から過小評価されている。
これらの問題に対処するために,タスク認識推論を強化するために設計された視覚指向の介入フレームワークであるVisionToMを紹介する。
中心となる考え方は、視覚的表現と正しいセマンティックターゲットを整列する介入ベクトルを計算し、異なる視覚的特徴層を通してモデルの注意を引き付けることである。
このガイダンスにより、モデルの言語的先行性への依存が軽減され、より信頼性の高いマルチモーダル言語モデル(MLLM)が出力され、QA性能が向上する。
In the experiments on the EgoToM benchmark-an egocentric, real-world video dataset for ToM with three multi-choice QA setting-demonstrate that our method improve the ToM abilities of MLLMs。
さらに、新たなオープンエンド生成タスクの結果は、VisionToMにより、MLLMがエージェントの精神状態をより正確に捉え、マシンと人間の協力関係をよりアライメントに進める自由形式の説明を作成できることを示している。
関連論文リスト
- Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models [17.235722538085263]
本研究では,大言語モデル(MLLM)における心の理論(ToM)の解釈可能性に基づく評価を実現するための内部メカニズムに基づくアプローチを採用する。
まず,マルチモーダルなToMテストデータセットであるGridToMを構築した。
次に,マルチモーダル大モデルにおける注目の頭脳は,視点によって認知情報を識別し,ToM能力の証拠となることを示す。
論文 参考訳(メタデータ) (2025-06-17T06:27:42Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文 参考訳(メタデータ) (2025-03-04T13:18:33Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。