論文の概要: Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images
- arxiv url: http://arxiv.org/abs/2605.12413v3
- Date: Mon, 18 May 2026 10:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.275043
- Title: Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images
- Title(参考訳): ローカライゼーションを超えて:全方位画像からのMLLMにおけるパースペクティブ・コンディション付き空間推論の包括的診断
- Authors: Yuangong Chen, Wai Keung Wong, Jiaxing Li, Ioannis Patras, Xu Zheng,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚的知覚が強いが、視点の変化による空間の推論には限界がある。
本研究では、この課題を全方位360度画像におけるパースペクティブ・コンディションド・スペース・推論(PCSR)として検討する。
我々は2,600全方位画像から84,373組の質問応答対の診断ベンチマークであるPCSR-Benchを紹介する。
- 参考スコア(独自算出の注目度): 52.50752250573993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show strong visual perception, yet remain limited in reasoning about space under changing viewpoints. We study this challenge as Perspective-Conditioned Spatial Reasoning (PCSR) in 360-degree omnidirectional images, where broad scene coverage reduces ambiguity from partial observations without eliminating the need for viewpoint-dependent inference. To assess this capability, we introduce PCSR-Bench, a diagnostic benchmark of 84,373 question-answer pairs from 2,600 omnidirectional images across 26 indoor environments. PCSR-Bench contains eight tasks spanning foundational perception (e.g., object counting, relative distance, and relative direction) and advanced PCSR, including compositional chains, egocentric rotation, perspective re-anchoring, ego-distortion, and limited-FOV visibility. We evaluate 14 representative MLLMs and observe a substantial perception-reasoning gap: accuracy reaches 57.59% on foundational relative direction, but drops to 13.49% on egocentric rotation, 7.13% on egocentric distortion, and 0.64% on open-ended compositional reasoning. To probe the plasticity of this gap, we conduct an RL-based diagnostic study on a 7B-scale model. Reward shaping improves a matched 7B baseline from 31.10% to 60.06% under a controlled setting, suggesting that PCSR is partial plasticity rather than being fully immutable. Still, the gains are task-selective, sensitive to reward design including both weight allocation and reward formulation, and partially dependent on the evaluation protocol. These results position PCSR as a key bottleneck in current MLLMs and highlight limited but meaningful room for recovery under targeted optimization.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的知覚が強いが、視点の変化による空間の推論には限界がある。
この課題を,視野依存型空間共振 (PCSR) として360度全方位画像を用いて検討し,視野依存推論の必要性をなくすことなく,広視野の視野が部分的な観察からあいまいさを低減させる。
そこで本研究では,26室内環境における2,600全方位画像から84,373対の質問応答対の診断ベンチマークであるPCSR-Benchを紹介する。
PCSR-Benchは、基本認識(例えば、対象数、相対距離、相対方向)と高度なPCSRにまたがる8つのタスクを含む。
14個の代表MLLMを評価し, 精度は基本相対方向で57.59%に達するが, 自我中心回転では13.49%, 自我中心歪では7.13%, オープンエンド構成推論では0.64%に低下する。
このギャップの可塑性を調査するため,RLを用いた7Bスケールモデルの診断研究を行った。
リワードシェイピングは、制御された条件下でのマッチした7Bベースラインを31.10%から60.06%に改善し、PCSRが完全に不変ではなく部分的な可塑性であることを示唆している。
それでも、ゲインはタスク選択的であり、重量配分と報酬定式化の両方を含む報酬設計に敏感であり、部分的に評価プロトコルに依存している。
これらの結果から,PCSRは現在のMLLMにおいて重要なボトルネックとして位置づけられ,目標とする最適化の下では,限られたが意味のある回復の余地が強調された。
関連論文リスト
- Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization [31.411469692692766]
Chain-of-Thoughtトレースは、最終的な回答と矛盾することが多く、視覚的証拠が不十分である。
ラグランジアン二重昇華による制約として整合性と接地を強制するFithful GRPOを提案する。
その結果,FGRPOは推論品質を大幅に改善し,不整合率を24.5%から1.7%に下げ,視覚的接点スコアを+13%改善した。
論文 参考訳(メタデータ) (2026-04-09T17:15:47Z) - Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis [15.00702842825464]
浸潤性肺腺癌亜型に対する全スライディング画像分類は, 実際の画像摂動に対して脆弱である。
本研究では,143枚の全スライディング画像から203,226枚のパッチに対して評価したマージン整合性フレームワークを提案する。
提案手法は,Kendall相関によるトレーニング中の0.88,バリデーション時の0.64の頑健な特徴-論理空間アライメントを実現する。
論文 参考訳(メタデータ) (2026-02-27T20:47:15Z) - Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction [0.0]
マスク付き視覚言語学習に目標を明示的に組み込んだ自己教師型事前学習フレームワークであるRobust Multi-Modal Masked Reconstruction (Robust-MMR)を提案する。
VQA-RAD, クロスドメイン画像テキスト分類 (MELINDA), 堅牢画像キャプチャ検索 (ROCO) などである。
以上の結果から,事前トレーニング中にロバスト性を明確にモデル化することで,実世界展開における医療ビジョン言語表現の信頼性が向上することが示された。
論文 参考訳(メタデータ) (2026-02-06T01:20:56Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Sight View Constraint for Robust Point Cloud Registration [13.216523566864641]
部分的ポイントクラウド登録(部分的PCR)は、特に低い重複率を扱う場合、難しいタスクである。
本稿では、不正確な変換を確定的に識別する、新規で一般的な視線制約(SVC)を提案する。
挑戦的な3DLoMatchデータセットでは、登録リコールが78%から82%に増加し、最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-09-08T11:58:20Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。