論文の概要: Rethinking the Illusion of Thinking
- arxiv url: http://arxiv.org/abs/2507.01231v1
- Date: Tue, 01 Jul 2025 23:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.956401
- Title: Rethinking the Illusion of Thinking
- Title(参考訳): 思考のイライラを再考する
- Authors: Iñaki Dellibarda Varela, Pablo Romero-Sorozabal, Eduardo Rocon, Manuel Cebrian,
- Abstract要約: Appleは“The Illusion of Thinking”を発表し、AIコミュニティ内で熱い議論を巻き起こした。
従来報告されたハノイ塔の故障は, 出力制約の結果ではないことを示した。
また, 河川横断試験の結果は, 当初, 破滅的な失敗が原因で, 解決不可能な構成を検証したところ, ヒンジに陥ることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Earlier this year, Apple ignited controversy by publishing "The Illusion of Thinking," prompting heated debate within the AI community. Critics seized upon the findings as conclusive evidence that Large Reasoning Models (LRMs) lack genuine reasoning capabilities, branding them as mere stochastic parrots. Meanwhile, defenders-spearheaded by Lawsen et al. (2025)-fired back, condemning the experimental setup as flawed and the conclusions overstated. We clarify this debate by replicating and refining two of the original study's most contentious benchmarks: Towers of Hanoi and River Crossing. By introducing incremental stepwise prompting and agentic collaborative dialogue, we show that previously reported failures solving the Towers of Hanoi were not purely result of output constraints, but also partly a result of cognition limitations: LRMs still stumble when complexity rises moderately (around 8 disks). Moreover, the River Crossing results initially heralded as catastrophic failures turn out to hinge upon testing unsolvable configurations. Once we limit tests strictly to solvable problems-LRMs effortlessly solve large instances involving over 100 agent pairs. Our findings ultimately defy simplistic narratives: today's LRMs are stochastic, RL-tuned searchers in a discrete state space we barely understand. Real progress in symbolic, long-horizon reasoning demands mapping that terrain through fine-grained ablations like those introduced here.
- Abstract(参考訳): 今年初め、Appleは"The Illusion of Thinking"を出版することで論争を巻き起こし、AIコミュニティ内で熱い議論を巻き起こした。
批評家は、Large Reasoning Models(LRM)には真の推論能力がなく、単なる確率的なオウムとしてブランド化されているという決定的な証拠として、この発見をつかんだ。
一方、ローゼンら(2025年)に率いられた守備隊は反撃し、実験装置に欠陥があり、結論が過大評価されたと非難した。
我々はこの議論を、最初の研究でもっとも議論を呼んだ2つのベンチマーク、すなわちハノイの塔と川を渡る川を再現し、修正することで明らかにした。
段階的にプロンプトとエージェントによる協調対話を導入することで,これまで報告されていたハノイ塔の故障は単なる出力制約の結果ではなく,認知的制約の結果であることがわかった。
さらに、河川横断試験の結果は、当初は破滅的な失敗が、解決不可能な構成をテストする際にヒンジに繋がったと認識されていた。
一度テストが厳格に解決可能な問題に制限されると、LRMは100以上のエージェントペアを含む大きなインスタンスを懸命に解決する。
現在のLRMは確率的で、RLで調整されたサーチカーで、私たちはほとんど理解していません。
象徴的で長い地平線推論の真の進歩は、ここに紹介されたような細粒度のアブレーションを通して地形をマッピングすることを要求する。
関連論文リスト
- Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - A Comment On "The Illusion of Thinking": Reframing the Reasoning Cliff as an Agentic Gap [0.39073867995073247]
我々は、観測された失敗は基本的な認知境界の証拠ではなく、システムレベルの制約の予測可能な結果であると主張している。
当初、テキストのみの世代に限定してパズルを宣言することは不可能であると宣言されたモデルは、現在ではエージェントツールを使用して解決するだけでなく、それまで克服できなかった難易度をはるかに超える複雑さを習得している。
論文 参考訳(メタデータ) (2025-06-23T17:14:21Z) - Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [0.0]
大規模推論モデル(LRM)は、特定の複雑性しきい値を超えた計画パズルについて「精度の崩壊」を示す。
これらの結果は,基本的推論失敗ではなく,実験的な設計上の制約を主に反映していることが実証された。
論文 参考訳(メタデータ) (2025-06-10T21:16:53Z) - Are Reasoning Models More Prone to Hallucination? [70.04436965009072]
最近進化した大推論モデル(LRM)は、長いチェーン・オブ・シークレット(CoT)推論能力を持つ複雑なタスクを解く上で、強力な性能を示している。
推論モデルは幻覚の傾向が強いか?
本稿では3つの観点からその問題に対処する。
論文 参考訳(メタデータ) (2025-05-29T16:53:41Z) - BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs [87.24843751412783]
本稿では,簡潔かつ境界認識の事実推論を促進するフレームワークであるBARRELを提案する。
BARRELトレーニングにより,DeepSeek-R1-Distill-Llama-8Bの信頼性は39.33%から61.48%向上した。
論文 参考訳(メタデータ) (2025-05-18T07:27:34Z) - ARise: Towards Knowledge-Augmented Reasoning via Risk-Adaptive Search [46.7782420285593]
ARiseは動的検索強化生成(RAG)と中間的推論状態のリスクアセスメントを統合する新しいフレームワークである
実験の結果、ARiseは最先端のKAR法を最大23.10%上回った。
論文 参考訳(メタデータ) (2025-04-15T06:06:50Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Replication-proof Bandit Mechanism Design with Bayesian Agents [11.758708370032469]
エージェントが自分の腕を戦略的に登録したり複製したりする際に、複製防止バンディット機構を設計する際の課題について検討する。
我々は,各自の腕の平均報酬の分布のみを把握しているベイズエージェントについて検討する。
論文 参考訳(メタデータ) (2023-12-28T08:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。