論文の概要: Test-Time Deep Thinking to Explore Implicit Rules
- arxiv url: http://arxiv.org/abs/2605.24828v2
- Date: Sun, 31 May 2026 15:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.336229
- Title: Test-Time Deep Thinking to Explore Implicit Rules
- Title(参考訳): 暗黙のルールを探求するテストタイムディープ思考
- Authors: Wentong Chen, Xin Cong, Zhong Zhang, Yaxi Lu, Siyuan Zhao, Yesai Wu, Qinyu Luo, Haotian Chen, Yankai Lin, Zhiyuan Liu, Maosong Sun,
- Abstract要約: Test-Time Exploration (TTExplore) は、思考者コンポーネントがインタラクション履歴を分析して暗黙のルールを推論し、アクターを誘導するフレームワークである。
5つのテキストベースのエボダイドタスクの実験では、TTExploreにExp-Thinkerが搭載されており、ベースラインエージェントのパフォーマンスを平均14ドル~19ドルポイント改善している。
- 参考スコア(独自算出の注目度): 80.74526536918196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the continuous advancement of Large Language Models (LLMs), intelligent agents are becoming increasingly vital. However, these agents often fail in environments governed by implicit rules--hidden constraints that cannot be observed directly and must be inferred through interaction. This causes agents to fall into repetitive trial-and-error loops, ultimately leading to task failure. To address this challenge, we propose Test-Time Exploration (TTExplore), a framework where a thinker component analyzes interaction history to infer these implicit rules and guide an actor. Effective exploration in this setting critically depends on the reasoning ability of the thinker. However, evaluating deep reasoning trajectories is inherently unstable and difficult, which poses a major obstacle to effective training. To overcome this issue, we introduce a novel and stable reinforcement learning pipeline. The core idea is to use accurate task-level scores as indirect rewards to bypass the difficulty of evaluating intermediate reasoning, and to retain only a single thinking node per trajectory to alleviate reward sparsity. Using this pipeline, we train a specialized 7B model, Exp-Thinker. Experiments on five text-based embodied tasks show that TTExplore equipped with Exp-Thinker improves baseline agent performance by an average of $14$-$19$ points, demonstrating the effectiveness of explicitly reasoning about implicit rules.
- Abstract(参考訳): LLM(Large Language Models)の継続的な進歩に伴い、インテリジェントエージェントはますます重要になりつつある。
しかしながら、これらのエージェントは暗黙の規則によって統治される環境で失敗することが多い。
これによりエージェントは繰り返し試行錯誤ループに陥り、最終的にタスクの失敗につながる。
この課題に対処するために,思考者コンポーネントがインタラクション履歴を分析してこれらの暗黙の規則を推論し,アクターを誘導するフレームワークであるTTExploreを提案する。
この設定における効果的な探索は、思考者の推論能力に大きく依存する。
しかし、深い推論軌道の評価は本質的に不安定で難しいため、効果的な訓練には大きな障害となる。
この問題を克服するために、我々は新しく安定した強化学習パイプラインを導入する。
中心となる考え方は、正確なタスクレベルスコアを間接報酬として使用し、中間的推論を評価することの難しさを回避し、軌道毎の思考ノードを1つだけ保持し、報酬の分散を軽減することである。
このパイプラインを使用して、特殊な7BモデルであるExp-Thinkerをトレーニングします。
5つのテキストベースのエボダイドタスクの実験では、TTExploreにExp-Thinkerが搭載されているため、平均14ドル~19ドルポイントのベースラインエージェントのパフォーマンスが向上し、暗黙の規則を明示的に推論する効果が示された。
関連論文リスト
- Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Is Depth All You Need? An Exploration of Iterative Reasoning in LLMs [11.896234713853298]
問題の解答に直接寄与する関連する知識が、最初の推論経路から活性化されるかどうかを考察する。
実験の結果,初期推論経路の多様性を増大させることで,同等あるいは優れた性能が得られることがわかった。
そこで本研究では,文脈探索とサンプリングランダム性の低減を両立させることにより,推論幅を向上させる簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-02-15T16:59:59Z) - Towards Principled Unsupervised Multi-Agent Reinforcement Learning [49.533774397707056]
実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。
本研究では,特定の目的,すなわち混合エントロピーの最適化が,トラクタビリティと性能のトレードオフに優れたものであることを示す。
論文 参考訳(メタデータ) (2025-02-12T12:51:36Z) - Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent [9.439315294704368]
Tree of Thoughts (ToT) 法は複雑な質問応答タスクの推論を改善する可能性を示している。
マルチエージェント推論における重要な制限は、'Reasoner'エージェントによる推論経路の浅い探索である。
ToTをベースとしたReasonerエージェントとThought Validatorエージェントを組み合わせた新しいアプローチを提案する。
提案手法は,GSM8Kデータセットを用いた場合,既存の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T19:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。