論文の概要: Limits of Emergent Reasoning of Large Language Models in Agentic Frameworks for Deterministic Games
- arxiv url: http://arxiv.org/abs/2510.15974v1
- Date: Sun, 12 Oct 2025 23:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.736914
- Title: Limits of Emergent Reasoning of Large Language Models in Agentic Frameworks for Deterministic Games
- Title(参考訳): 決定論的ゲームのためのエージェントフレームワークにおける大規模言語モデルの創発的推論の限界
- Authors: Chris Su, Harrison Li, Matheus Marques, George Flint, Kevin Zhu, Sunishchal Dev,
- Abstract要約: 大規模推論モデル(LRM)は、特定の難易度しきい値を超えたパズルの解法の性能の低下を経験する。
本研究では,ハノイ問題タワーの環境インタフェースを備えた大規模言語モデル(LLM)を提案する。
環境インターフェースへのアクセスが性能の低下を遅らせたり、根絶したりしないことを観察する。
- 参考スコア(独自算出の注目度): 2.357397994148727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work reports that Large Reasoning Models (LRMs) undergo a collapse in performance on solving puzzles beyond certain perplexity thresholds. In subsequent discourse, questions have arisen as to whether the nature of the task muddles an evaluation of true reasoning. One potential confound is the requirement that the model keep track of the state space on its own. We provide a large language model (LLM) with an environment interface for Tower of Hanoi problems, allowing it to make a move with a tool call, provide written justification, observe the resulting state space, and reprompt itself for the next move. We observe that access to an environment interface does not delay or eradicate performance collapse. Furthermore, LLM-parameterized policy analysis reveals increasing divergence from both optimal policies and uniformly random policies, suggesting that the model exhibits mode-like collapse at each level of complexity, and that performance is dependent upon whether the mode reflects the correct solution for the problem. We suggest that a similar phenomena might take place in LRMs.
- Abstract(参考訳): 最近の研究報告によると、Large Reasoning Models (LRMs) は、ある種の難易度しきい値を超えたパズルの解法の性能が低下している。
その後の談話では、タスクの性質が真の推論の評価を損なうかどうかという疑問が持ち上がっている。
潜在的な欠点の1つは、モデルが自身で状態空間を追跡しているという要求である。
我々は,ハノイ問題タワーの環境インターフェースを備えた大規模言語モデル (LLM) を提供し,ツールコールによる移動,書面の正当性の提供,結果の状態空間の観察,そして次の移動のために自分自身を再起動することを可能にする。
環境インターフェースへのアクセスが性能の低下を遅らせたり、根絶したりしないことを観察する。
さらに, LLMパラメータ化ポリシ解析により, 最適ポリシと一様ランダムポリシの双方からのばらつきが増大し, モデルが各複雑性レベルでモードライクな崩壊を示し, モードが問題に対する正しい解を反映しているかに依存することが示唆された。
同様の現象が LRM で起こりうることを示唆する。
関連論文リスト
- Are Large Reasoning Models Interruptible? [77.53059044071107]
LRM(Large Reasoning Models)は複雑な推論において優れているが、伝統的に静的な「凍った世界」設定で評価されている。
静的な設定で高い精度を達成できる最先端のLEMでさえ、割り込みやコンテキストの変化に晒された場合、予測不能に失敗する可能性があることを示す。
我々の分析ではさらに、漏れの原因、パニック、自己疑念など、いくつかの新しい障害モードを明らかにしている。
論文 参考訳(メタデータ) (2025-10-13T17:59:35Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。
静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。
シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-08T15:52:38Z) - Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations [4.39614901077936]
大規模言語モデル(LLM)は、構造化推論機能への関心が高まっている。
Abstraction and Reasoning Corpusベンチマークは、AIモデルが新しい問題にどのように一般化するかをテストすることによって、これらの能力を評価する上で重要な役割を果たす。
この研究は、現実世界のシナリオに固有のあいまいさと可変性を扱うことができる、より堅牢で適応可能なAIシステムを開発する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-22T13:43:58Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。