Fugu-MT 論文翻訳(概要): Visuospatial Perspective Taking in Multimodal Language Models

論文の概要: Visuospatial Perspective Taking in Multimodal Language Models

arxiv url: http://arxiv.org/abs/2603.23510v1
Date: Wed, 04 Mar 2026 14:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 02:36:12.993165
Title: Visuospatial Perspective Taking in Multimodal Language Models
Title（参考訳）: マルチモーダル言語モデルにおける視覚空間的視点
Authors: Jonathan Prunty, Seraphina Zhang, Patrick Quinn, Jianxun Lian, Xing Xie, Lucy Cheke,
Abstract要約: マルチモーダル言語モデル(MLM)は、社会的および協調的な設定において、ますます使われている。彼らの視点を取る能力を評価することは重要である。我々は人間の研究から2つの評価課題に適応する。
参考スコア（独自算出の注目度）: 31.559194927956256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As multimodal language models (MLMs) are increasingly used in social and collaborative settings, it is crucial to evaluate their perspective-taking abilities. Existing benchmarks largely rely on text-based vignettes or static scene understanding, leaving visuospatial perspective-taking (VPT) underexplored. We adapt two evaluation tasks from human studies: the Director Task, assessing VPT in a referential communication paradigm, and the Rotating Figure Task, probing perspective-taking across angular disparities. Across tasks, MLMs show pronounced deficits in Level 2 VPT, which requires inhibiting one's own perspective to adopt another's. These results expose critical limitations in current MLMs' ability to represent and reason about alternative perspectives, with implications for their use in collaborative contexts.
Abstract（参考訳）: マルチモーダル言語モデル (MLM) は, 社会的, 協調的な環境においてますます利用されているため, 視点獲得能力を評価することが重要である。既存のベンチマークはテキストベースのヴィグネットや静的なシーン理解に大きく依存しており、VIP(visuospatial perspective-take)を過小評価している。我々は,人文科学の2つの評価課題に適応する:ディレクタータスク,参照コミュニケーションパラダイムにおけるVPTの評価,回転図タスク。タスク全体にわたって、MLMはレベル2 VPTの障害を顕著に示しており、これは他人の採用に対する自身の視点を阻害する必要がある。これらの結果は、現在のMLMが他の視点を表現し、推論する能力において重要な限界を示しており、コラボレーティブな文脈での使用に影響を及ぼす。

関連論文リスト

Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文参考訳（メタデータ） (2026-03-21T13:10:37Z)
Defeating Cerberus: Concept-Guided Privacy-Leakage Mitigation in Multimodal Language Models [6.278770177156937]
本稿では,PII関連コンテンツに関連するモデルの内部状態を同定し,修正する概念誘導緩和手法を提案する。本手法は, PII感受性タスクを学習や微調整を必要とせず, 効果的かつ効率的に拒否できるようにVLMを誘導する。
論文参考訳（メタデータ） (2025-09-29T21:27:10Z)
MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [19.241274582769037]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文参考訳（メタデータ） (2025-06-20T14:57:41Z)
Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes? [14.41230051139575]
本稿では,2段階の難易度を有するマルチモーダルベンチマークであるArgus Inspectionを紹介する。また、双対パラメトリックなシグモイド計量と指標関数を統合する「アイ・オブ・パノプテス」フレームワークも提示する。
論文参考訳（メタデータ） (2025-06-03T13:44:14Z)
V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。 V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。 V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文参考訳（メタデータ） (2025-02-22T20:55:26Z)
Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。 2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-02-19T06:31:06Z)
MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。