論文の概要: Limits of Imagery Reasoning in Frontier LLM Models
- arxiv url: http://arxiv.org/abs/2603.26779v1
- Date: Wed, 25 Mar 2026 01:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.59966
- Title: Limits of Imagery Reasoning in Frontier LLM Models
- Title(参考訳): 最前線LLMモデルにおける画像推論の限界
- Authors: Sergio Y. Hayashi, Nina S. T. Hirata,
- Abstract要約: 大きな言語モデル(LLM)は印象的な推論機能を示している。
しかし、彼らは精神的な回転のような精神的シミュレーションを必要とする空間的なタスクに苦しむ。
本稿では,LLMに外部画像モジュールを装備することで,このギャップを埋めることができるか検討する。
- 参考スコア(独自算出の注目度): 0.7243632426715938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive reasoning capabilities, yet they struggle with spatial tasks that require mental simulation, such as mental rotation. This paper investigates whether equipping an LLM with an external ``Imagery Module'' -- a tool capable of rendering and rotating 3D models -- can bridge this gap, functioning as a ``cognitive prosthetic.'' We conducted experiments using a dual-module architecture in which a reasoning module (an MLLM) interacts with an imagery module on 3D model rotation tasks. Performance was lower than expected, with accuracy reaching at most 62.5%. Further investigation suggests that even when the burden of maintaining and manipulating a holistic 3D state is outsourced, the system still fails. This reveals that current frontier models lack the foundational visual-spatial primitives required to interface with imagery. Specifically, they lack: (1) the low-level sensitivity to extract spatial signals such as (a) depth, (b) motion, and (c) short-horizon dynamic prediction; and (2) the capacity to reason contemplatively over images, dynamically shifting visual focus and balancing imagery with symbolic and associative information.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な推論能力を示してきたが、精神的な回転のような精神的シミュレーションを必要とする空間的タスクに苦戦している。
本稿では,3次元モデルのレンダリングと回転が可能なツールである 'Imagery Module'' をLCMに組み込むことで,このギャップを埋めることができ,「認知的補綴物」として機能するかどうかを考察する。
そこで我々は,3次元モデル回転タスクにおいて,推論モジュール(MLLM)が画像モジュールと相互作用するデュアルモジュールアーキテクチャを用いて実験を行った。
性能は予想より低く、精度は62.5%に達した。
さらなる調査は、総合的な3D状態の維持と操作の負担がアウトソースされたとしても、システムはまだ失敗していることを示唆している。
これは、現在のフロンティアモデルには、画像とのインターフェイスに必要な基本的な視覚空間プリミティブが欠けていることを示している。
1)空間信号の抽出のための低レベル感度
(a) 深さ。
(b)動作,及び
(c)短期水平的動的予測,(2)視覚的焦点を動的にシフトさせ,画像と記号的・連想的情報とのバランスをとることによって,イメージを理論的に判断する能力。
関連論文リスト
- Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression [12.590536117486257]
既存の視覚言語モデル(VLM)は、現実世界の空間知能を理解するのに苦労している。
GEODEは2つの特別なプラグアンドプレイモジュールでメインVLMを拡張している。
これらのモジュールの相乗効果により、1.5Bパラメータモデルは高レベルのセマンティックディスパッチとして機能します。
論文 参考訳(メタデータ) (2025-11-14T12:42:07Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。