Unveiling the Entropy Dynamics of Chain-of-Thought Reasoning
Abstractの概要
本論文は、思考の連鎖(Chain-of-Thought)生成中に予測エントロピーがどのように変化するかを研究し、推論プロセスが通常、高エントロピーの不確実性領域から低エントロピーの確信領域への急激な移行という2段階のパターンをたどると論じている。著者らは、確信領域に入ると回答がより正確かつ安定的になる一方で、正解に事実上到達した後も冗長なトークンを伴って生成が続くことが多いと報告している。彼らは確信領域の検出をオンラインの逐次的変化点検出問題として定式化し、訓練不要のCUSUMアルゴリズムを用いて実装している。そして、得られたフレームワークを複数のオープンソース推論モデルやベンチマークにおける早期終了とテスト時スケーリングの両方に適用している。
新規性
特徴的な貢献は、局所的なステップごとのヒューリスティックによってではなく、軌跡全体にわたるエントロピー動態を通じてChain-of-Thought推論を分析し、不確実性から確信への急激な移行が反復的な構造であることを特定した点にある。また、LLMの推論をリアルタイムに制御するために、古典的な変化点検出(具体的にはCUSUM)を用いてこの移行を操作化した初の論文であると思われる。
成果
実証的に、この手法は比較したベースラインよりも強力な早期終了の効率性と精度のトレードオフをもたらす。本論文は、11.1%のトークン削減で平均精度63.06%を達成し、精度においてDEERとDynasorをそれぞれ3.28、4.36パーセントポイント上回ったと報告しており、さらに、テスト時スケーリングにおいてCUSUMで重み付けした投票が一貫してSelf-Consistency(自己整合性検証)を上回り、サンプリングする軌跡が増えるほどその差が大きくなることを示している。
論文の注目点
- Chain-of-Thoughtの軌跡全体における予測エントロピーは、探索から収束への急激な移行を伴う一貫した2領域構造を示す。
- 確信領域は、より高い回答の信頼性と顕著な冗長性の両方を特徴としており、早期終了と軌跡の再重み付けの動機付けとなっている。
- 訓練不要のCUSUM検出器により、この移行のオンラインでの特定が可能になり、報告されたベースラインと比較して早期終了およびテスト時スケーリングの両方を改善する。