論文の概要: TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space?
- arxiv url: http://arxiv.org/abs/2602.05570v1
- Date: Thu, 05 Feb 2026 11:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.909675
- Title: TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space?
- Title(参考訳): TangramSR: ビジョンランゲージモデルは連続した幾何学空間で理にかなっているか?
- Authors: Yikun Zong, Cheston Tan,
- Abstract要約: 人間は、心的回転、反復的洗練、視覚的フィードバックを含む認知プロセスを通じて、タングラムパズルの組み立てのような空間的推論タスクに優れる。
しかし、VLM(Vision-Language Models)の5つにまたがる総合的な実験では、連続的な幾何学的推論における体系的な失敗が明らかになった。
本研究では,インコンテクスト学習(ICL)と報酬誘導フィードバックループを組み合わせた,人間の認知プロセスにインスパイアされたテストタイムセルフリファインメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.222572150508332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans excel at spatial reasoning tasks like Tangram puzzle assembly through cognitive processes involving mental rotation, iterative refinement, and visual feedback. Inspired by how humans solve Tangram puzzles through trial-and-error, observation, and correction, we design a framework that models these human cognitive mechanisms. However, comprehensive experiments across five representative Vision-Language Models (VLMs) reveal systematic failures in continuous geometric reasoning: average IoU of only 0.41 on single-piece tasks, dropping to 0.23 on two-piece composition, far below human performance where children can complete Tangram tasks successfully. This paper addresses a fundamental challenge in self-improving AI: can models iteratively refine their predictions at test time without parameter updates? We introduce a test-time self-refinement framework that combines in-context learning (ICL) with reward-guided feedback loops, inspired by human cognitive processes. Our training-free verifier-refiner agent applies recursive refinement loops that iteratively self-refine predictions based on geometric consistency feedback, achieving IoU improvements from 0.63 to 0.932 on medium-triangle cases without any model retraining. This demonstrates that incorporating human-inspired iterative refinement mechanisms through ICL and reward loops can substantially enhance geometric reasoning in VLMs, moving self-improving AI from promise to practice in continuous spatial domains. Our work is available at this anonymous link https://anonymous.4open.science/r/TangramVLM-F582/.
- Abstract(参考訳): 人間は、心的回転、反復的洗練、視覚的フィードバックを含む認知プロセスを通じて、タングラムパズルの組み立てのような空間的推論タスクに優れる。
人間は試行錯誤、観察、修正を通じてタングラムパズルを解く方法に触発され、これらの認知メカニズムをモデル化する枠組みを設計する。
しかし、5つの代表的な視覚言語モデル(VLM)の総合的な実験では、連続的な幾何学的推論における体系的な失敗が明らかになっている。
本稿では、自己改善AIにおける根本的な課題に対処する。モデルがパラメータ更新なしで、テスト時に予測を反復的に洗練できるか?
本研究では,インコンテクスト学習(ICL)と報酬誘導フィードバックループを組み合わせた,人間の認知プロセスにインスパイアされたテストタイムセルフリファインメントフレームワークを提案する。
トレーニング不要なバリファイア・リファイナ・エージェントは、幾何整合性フィードバックに基づいて反復的に自己再定義する再帰的改善ループを適用し、モデル再トレーニングを伴わない中三角形の場合、0.63から0.932までのIoU改善を実現した。
このことは、ICLや報酬ループを通じて人間にインスパイアされた反復的洗練機構を組み込むことで、VLMにおける幾何学的推論を大幅に強化し、持続的な空間領域での実践を約束から改善するAIを移動させることを実証している。
私たちの研究は、https://anonymous.4open.science/r/TangramVLM-F582/という匿名のリンクで公開されています。
関連論文リスト
- ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction [35.24704057622881]
身体的認知は、知性は受動的観察よりも知覚的相互作用から生じると主張する。
我々は,エゴセントリックな相互作用から世界モデリングとしての認知の具体化を評価するベンチマークENACTを紹介する。
論文 参考訳(メタデータ) (2025-11-26T00:06:02Z) - Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning [52.99434388759101]
ツール統合推論による継続的改善を実現する自己進化型視覚言語エージェントを提案する。
Agent0-VLは、ツールの使用法を推論だけでなく、自己評価や自己修復にも取り入れている。
実験の結果,Agent0-VLはベースモデルよりも12.5%向上していることがわかった。
論文 参考訳(メタデータ) (2025-11-25T04:15:14Z) - Token Is All You Need: Cognitive Planning through Belief-Intent Co-Evolution [0.0]
意味的に豊かなトークンの最小セット内での信念と意図の共進化から効果的な計画が生じることを示す。
知性はピクセルの忠実さではなく、信念と意図のトークン化された双対性にある。
論文 参考訳(メタデータ) (2025-10-30T12:16:45Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - RLSR: Reinforcement Learning from Self Reward [0.0]
大規模な言語モデルでは,参照解を使わずに自己判断によって効果的に自己改善できることを示す。
実験により, モデルが真理の答えを得られずに, 信頼性の高い報奨信号を提供できることを示した。
この作業は、自己指向学習を通じて継続的に改善される自律型AIシステムに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-05-12T23:51:04Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。
Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。