Test-Time Deep Thinking to Explore Implicit Rules
Abstractの概要
本論文は、観察から直接読み取るのではなく、相互作用から隠れた制約を推測する必要がある暗黙のルールを持つ環境におけるLLMベースのエージェントを研究している。行動実行を担うアクターと、軌跡を定期的に分析して失敗の背後にある隠れたルールを仮説立てし、修正されたガイダンスを提供するシンカーを備えたテスト時フレームワーク「TTExplore」を提案している。途中段階の推論の質に直接報酬を与えることは難しいため、著者らはタスクレベルの改善を間接的な報酬として使用し、不安定性を減らすために軌跡ごとに単一の思考ノードのみを保持する強化学習パイプラインを用いて、特化型7Bシンカー「Exp-Thinker」を訓練した。本フレームワークは、分布内および分布外の設定をカバーするAgentboardの5つのテキストベース身体化タスクで評価されている。
新規性
固定のプロンプティングやオフライン知識、より強力な事前学習のみに依存するのではなく、環境の暗黙のルールを発見するための専用のテスト時探索アーキテクチャを提案している点が特徴的な貢献である。また、安定したタスクレベルの報酬と単一ノードによる信用割り当てを使用して、深い推論の強化学習をより実現可能にする、シンカーの役割に特化した訓練パイプラインも導入している。
成果
5つのタスク全体で、Exp-Thinkerを搭載したTTExploreは、ベースラインアクターの平均プロセススコアをLLaMA3-8Bで27.81から46.69へ、Qwen2.5-7Bで40.87から54.32へと向上させ、報告されている約14〜19ポイントの平均利得と一致した。また、Qwen2.5-ActorでのBabyAIのスコアが50.62から60.25へ上昇するなど、より強力に訓練されたアクターも改善しており、分析結果は繰り返しが少なく、より高い行動および観察の多様性を示している。効率性の比較において、TTExploreはReActよりも約1.4倍遅いと報告されているが、Best-of-Nとの互換性を保ちつつ、ReflexionやBest-of-Nよりもコストが低いとされている。
論文の注目点
- TTExploreは、行動実行と戦略的推論を分離し、アクターと、最近の相互作用の履歴から暗黙のルールを推測して定期的に呼び出されるシンカーを組み合わせている。
- Exp-Thinkerは、タスクレベルのスコア向上を間接的な報酬として使用し、軌跡ごとに1つの思考ノードを保持して信用割り当てを安定させるSFT+RLパイプラインで訓練されている。
- 実証実験において、本手法は5つのテキストベース身体化タスクでベースエージェントと訓練済みエージェントの両方を改善し、より探索的で繰り返しの少ない行動をもたらしている。