論文の概要: Your Reasoning Benchmark May Not Test Reasoning: Revealing Perception Bottleneck in Abstract Reasoning Benchmarks
- arxiv url: http://arxiv.org/abs/2512.21329v1
- Date: Wed, 24 Dec 2025 18:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.850162
- Title: Your Reasoning Benchmark May Not Test Reasoning: Revealing Perception Bottleneck in Abstract Reasoning Benchmarks
- Title(参考訳): あなたの推論ベンチマークはテスト推論ではないかもしれない - 抽象推論ベンチマークでパーセプションボタネックを明らかにする
- Authors: Xinhe Wang, Jin Huang, Xingjian Zhang, Tianhao Wang, Jiaqi W. Ma,
- Abstract要約: 認識と推論を明確に分離する2段階の実験パイプラインを導入する。
本研究は,観測性能ギャップの根底にある要因は知覚能力であることを示す。
本研究は,認識を推論から遠ざける評価プロトコルの必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 10.06554565520216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning benchmarks such as the Abstraction and Reasoning Corpus (ARC) and ARC-AGI are widely used to assess progress in artificial intelligence and are often interpreted as probes of core, so-called ``fluid'' reasoning abilities. Despite their apparent simplicity for humans, these tasks remain challenging for frontier vision-language models (VLMs), a gap commonly attributed to deficiencies in machine reasoning. We challenge this interpretation and hypothesize that the gap arises primarily from limitations in visual perception rather than from shortcomings in inductive reasoning. To verify this hypothesis, we introduce a two-stage experimental pipeline that explicitly separates perception and reasoning. In the perception stage, each image is independently converted into a natural-language description, while in the reasoning stage a model induces and applies rules using these descriptions. This design prevents leakage of cross-image inductive signals and isolates reasoning from perception bottlenecks. Across three ARC-style datasets, Mini-ARC, ACRE, and Bongard-LOGO, we show that the perception capability is the dominant factor underlying the observed performance gap by comparing the two-stage pipeline with against standard end-to-end one-stage evaluation. Manual inspection of reasoning traces in the VLM outputs further reveals that approximately 80 percent of model failures stem from perception errors. Together, these results demonstrate that ARC-style benchmarks conflate perceptual and reasoning challenges and that observed performance gaps may overstate deficiencies in machine reasoning. Our findings underscore the need for evaluation protocols that disentangle perception from reasoning when assessing progress in machine intelligence.
- Abstract(参考訳): ARC(Abstraction and Reasoning Corpus)やARC-AGI(ARC-AGI)のような推論ベンチマークは、人工知能の進歩を評価するために広く使われ、しばしばコアのプローブとして解釈される。
人間にとって明らかな単純さにもかかわらず、これらのタスクは、機械推論の欠陥に起因するギャップであるフロンティア視覚言語モデル(VLM)にとって依然として困難である。
我々はこの解釈に挑戦し、このギャップは帰納的推論の欠点からではなく、視覚知覚の限界から生じるという仮説を立てる。
この仮説を検証するために,認識と推論を明確に分離する2段階の実験パイプラインを導入する。
知覚段階では、各画像は独立して自然言語記述に変換され、推論段階では、モデルはこれらの記述を使用して規則を誘導し適用する。
この設計は、クロスイメージ誘導信号の漏洩を防止し、認識ボトルネックから推論を分離する。
ARCスタイルの3つのデータセット(Mini-ARC,ACRE,Bongard-LOGO)に対して,2段階のパイプラインと標準のエンドツーエンドのワンステージ評価を比較することで,観測性能ギャップの根底にある要因として知覚能力が重要であることを示す。
VLM出力の推論トレースを手動で検査すると、モデル故障の約80%が知覚誤差によるものであることが判明した。
これらの結果は、ARCスタイルのベンチマークが知覚的および推論上の課題を詳述し、観察された性能ギャップが、マシン推論における欠陥を過度に表すことを示した。
本研究は,機械知能の進歩を評価する際に,思考を推論から遠ざける評価プロトコルの必要性を明らかにするものである。
関連論文リスト
- MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models [49.32415342913976]
マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
論文 参考訳(メタデータ) (2025-12-09T04:13:31Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Unifying Deductive and Abductive Reasoning in Knowledge Graphs with Masked Diffusion Model [64.31242163019242]
帰納的推論と帰納的推論は知識グラフを解析するための重要なパラダイムである。
DARKと呼ばれる知識グラフにおける帰納的・帰納的推論のための統一的なフレームワークを提案する。
DARKは, 帰納的推論タスクと帰納的推論タスクの両方において, 最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-13T14:34:57Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Detection and Mitigation of Hallucination in Large Reasoning Models: A Mechanistic Perspective [11.013059864022667]
推論の幻覚は論理的に一貫性があるが、事実的に誤った推論トレースである。
これらのエラーは構造化推論に埋め込まれており、検出が難しく、潜在的に有害である可能性がある。
本稿では,ロジット間のばらつきを測定することによって推論の深さを定量化するReasoning Scoreを提案する。
また,ステップレベルの深い推論報酬をポテンシャルベース形状に組み込んだ強化強化学習アルゴリズムGRPO-Rを導入する。
論文 参考訳(メタデータ) (2025-05-19T09:16:40Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。