FuguReport

Test-Time Deep Thinking to Explore Implicit Rules

著者 Wentong Chen, Xin Cong, Zhong Zhang, Yaxi Lu, Siyuan Zhao, Yesai Wu, Qinyu Luo, Haotian Chen, Yankai Lin, Zhiyuan Liu, Maosong Sun
所属 Shanghai Jiaotong University / Tsinghua University / The Johns Hopkins University / Nankai University / Renmin University of China / University of Electronic Science and Technology of China
カテゴリ Method / Exploration Techniques / Test-time deep thinking framework, Evaluation / Task Performance Evaluation / Improvement on evodid tasks, Application / Implicit Rule Discovery / Actor guidance via inferred rules
ライセンス CC BY 4.0

Abstractの概要

本論文は、観察から直接読み取るのではなく、相互作用から隠れた制約を推測する必要がある暗黙のルールを持つ環境におけるLLMベースのエージェントを研究している。行動実行を担うアクターと、軌跡を定期的に分析して失敗の背後にある隠れたルールを仮説立てし、修正されたガイダンスを提供するシンカーを備えたテスト時フレームワーク「TTExplore」を提案している。途中段階の推論の質に直接報酬を与えることは難しいため、著者らはタスクレベルの改善を間接的な報酬として使用し、不安定性を減らすために軌跡ごとに単一の思考ノードのみを保持する強化学習パイプラインを用いて、特化型7Bシンカー「Exp-Thinker」を訓練した。本フレームワークは、分布内および分布外の設定をカバーするAgentboardの5つのテキストベース身体化タスクで評価されている。

新規性

固定のプロンプティングやオフライン知識、より強力な事前学習のみに依存するのではなく、環境の暗黙のルールを発見するための専用のテスト時探索アーキテクチャを提案している点が特徴的な貢献である。また、安定したタスクレベルの報酬と単一ノードによる信用割り当てを使用して、深い推論の強化学習をより実現可能にする、シンカーの役割に特化した訓練パイプラインも導入している。

成果

5つのタスク全体で、Exp-Thinkerを搭載したTTExploreは、ベースラインアクターの平均プロセススコアをLLaMA3-8Bで27.81から46.69へ、Qwen2.5-7Bで40.87から54.32へと向上させ、報告されている約14〜19ポイントの平均利得と一致した。また、Qwen2.5-ActorでのBabyAIのスコアが50.62から60.25へ上昇するなど、より強力に訓練されたアクターも改善しており、分析結果は繰り返しが少なく、より高い行動および観察の多様性を示している。効率性の比較において、TTExploreはReActよりも約1.4倍遅いと報告されているが、Best-of-Nとの互換性を保ちつつ、ReflexionやBest-of-Nよりもコストが低いとされている。

論文の注目点

  1. TTExploreは、行動実行と戦略的推論を分離し、アクターと、最近の相互作用の履歴から暗黙のルールを推測して定期的に呼び出されるシンカーを組み合わせている。
  2. Exp-Thinkerは、タスクレベルのスコア向上を間接的な報酬として使用し、軌跡ごとに1つの思考ノードを保持して信用割り当てを安定させるSFT+RLパイプラインで訓練されている。
  3. 実証実験において、本手法は5つのテキストベース身体化タスクでベースエージェントと訓練済みエージェントの両方を改善し、より探索的で繰り返しの少ない行動をもたらしている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。