論文の概要: The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space
- arxiv url: http://arxiv.org/abs/2605.09883v1
- Date: Mon, 11 May 2026 02:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.472428
- Title: The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space
- Title(参考訳): カルテシアンショートカット:極座標空間における視覚的推論の再評価
- Authors: Xia Hu, Zhenrui Yue, Brian Potetz, Howard Zhou, Leonidas Guibas, Chun-Ta Lu, Zhicheng Wang,
- Abstract要約: textbfCartesian Shortcut: 直交グリッドベースのレイアウト上に構築される視覚的推論ベンチマーク。
モデルは、この特性を体系的に利用し、テキストベースの推論を多用し、視覚的問題解決を支援する。
textbfPolaris-Bench は極座標空間における53の視覚的推論タスクを、対のカルテシアン対を参照として再生成する。
- 参考スコア(独自算出の注目度): 29.35702264173152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As current Multimodal Large Language Models rapidly saturate canonical visual reasoning benchmarks, a key question emerges: do these strong scores genuinely reflect robust visual understanding? We identify a pervasive vulnerability, the \textbf{Cartesian Shortcut}: visual reasoning benchmarks prevalently build on orthogonal grid-based layouts that can be readily discretized into explicit textual coordinates. Models systematically exploit this property, heavily leveraging text-based deductive reasoning to assist visual problem-solving. To systematically dismantle this shortcut, we introduce \textbf{Polaris-Bench}, which re-formulates 53 visual reasoning tasks in Polar coordinate space with paired Cartesian counterparts as reference, while preserving consistent logical constraints and task semantics -- thus fundamentally breaking the orthogonal prior that models exploit. Comprehensive evaluation across $14$ state-of-the-art MLLMs reveals that frontier models achieving $70$--$83\%$ on Cartesian layouts collapse to $31$--$39\%$ on Polar equivalents, with degradation persisting even under complete logical equivalence. Moreover, reasoning gains observed on Cartesian layouts are severely diminished on Polar equivalents. These findings expose a critical deficiency in current MLLMs: the lack of topology-invariant visual reasoning.
- Abstract(参考訳): 現在のマルチモーダル大規模言語モデルでは、標準的視覚推論ベンチマークが急速に飽和しているため、重要な疑問が浮かび上がっている。
視覚的推論ベンチマークは、直交格子に基づくレイアウト上に構築され、明示的なテキスト座標に容易に識別できる。
モデルは、この特性を体系的に利用し、テキストベースの推論を多用し、視覚的問題解決を支援する。
このショートカットを体系的に分解するために,ポラリ座標空間における53の視覚的推論タスクを,一貫した論理的制約とタスクのセマンティクスを保ちながら参照として再フォーマットする \textbf{Polaris-Bench} を導入する。
最先端MLLMの14ドルに対する包括的評価は、フロンティアモデルが70$--83\%のCartesianレイアウトでは311$--39\%のPolar等価性では崩壊し、完全に論理的等価性の下でも劣化が持続することを示している。
さらに、カルテシア配置で観測される推論の利得は極性等価量で著しく減少する。
これらの所見は、現在のMLLMにおいて、トポロジ不変な視覚的推論の欠如という重大な欠陥を呈している。
関連論文リスト
- Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens [4.0704009036918025]
大規模言語モデルにおける推論は、重要な推論時間計算を引き起こす。
推論トークンは、低エントロピーのテクスト構造トークン(推論過程を足場とするフレーズの再帰)と高エントロピーのテクスト有機トークン(解に向かって進むプロブレム固有のコンテンツ)の2つの機能タイプに分かれていることを示す。
頻繁な構造パターンをキャプチャするテクスチャツペルトケンを導出し、教師付き微調整によりモデルに導入するように教える。
論文 参考訳(メタデータ) (2026-04-29T07:06:43Z) - TraversalBench: Challenging Paths to Follow for Vision Language Models [11.032462608031922]
視覚言語モデル(VLM)はマルチモーダルベンチマークで強く機能するが、複雑な視覚経路を追従する能力は未試験である。
正確なビジュアルパストラバースのベンチマークであるTrversalBenchを紹介する。
自己切断が主要な困難の原因であることに気付きました。
論文 参考訳(メタデータ) (2026-04-13T04:58:52Z) - On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents [5.350399160165104]
マルチモーダルエージェントは受動的観察者から長距離意思決定者へと進化する。
現在のメモリシステムは負の制約を符号化することができない。
トレーニング不要な偏極グラフメモリであるPolarMemを紹介する。
論文 参考訳(メタデータ) (2026-01-31T00:13:56Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models [49.32415342913976]
マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
論文 参考訳(メタデータ) (2025-12-09T04:13:31Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.12031550252253]
本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。
PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。
PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
論文 参考訳(メタデータ) (2024-12-23T20:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。