論文の概要: Entropy Centroids as Intrinsic Rewards for Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2604.26173v2
- Date: Fri, 01 May 2026 11:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:10.916498
- Title: Entropy Centroids as Intrinsic Rewards for Test-Time Scaling
- Title(参考訳): テスト時間スケーリングにおける内在的逆流としてのエントロピーセントロイド
- Authors: Wenshuo Zhao, Qi Zhu, Xingshan Zeng, Fei Mi, Lifeng Shang, Yi R., Fung,
- Abstract要約: 大規模言語モデルのテスト時間計算をスケールアップする効果的な方法は、複数のレスポンスをサンプリングし、最適なものを選択することである。
従来のアプローチでは、信頼やエントロピーといった本質的なシグナルを探索してきたが、これらの信号は単純なアグリゲーションにうるさい。
提案手法は,複数の候補の中から最も低いエントロピーセントロイドの応答を選択する。
- 参考スコア(独自算出の注目度): 40.3805653951238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An effective way to scale up test-time compute of large language models is to sample multiple responses and then select the best one, as in Grok Heavy and Gemini Deep Think. Existing selection methods often rely on external reward models, which requires training a strong reward model and introduces additional computation overhead. As an alternative, previous approaches have explored intrinsic signals, such as confidence and entropy, but these signals are noisy with naive aggregation. In this work, we observe that high-entropy tokens tend to cluster into consecutive groups during inference, providing a more stable notion of model uncertainty than individual tokens. Together, these clusters reveal temporal patterns of model uncertainty throughout the inference process. Motivated by this observation, we propose to use the temporal structure of uncertainty as an intrinsic reward. To this end, we first formalize the basic unit of segment-level uncertainty as the High Entropy Phase (HEP), a variable-length segment that begins at a high-entropy token and ends when consecutive low-entropy tokens appear. We then define the Entropy Centroid, inspired by the concept of the center of mass in physics, as the weighted average position of all HEPs along the trajectory. Intuitively, a lower centroid indicates early exploration followed by confident generation, which we find often corresponds to higher response quality. Based on this insight, we propose the Lowest Centroid method, which selects the response with the lowest entropy centroid among multiple candidates. Experiments on mathematics, code generation, logical reasoning, and agentic tasks, across model scales ranging from 14B to 480B, show that Lowest Centroid consistently outperforms existing baselines and delivers stable gains as model size increases. Code is available at https://github.com/hkust-nlp/entropy-centroid.
- Abstract(参考訳): 大きな言語モデルのテスト時間計算をスケールアップする効果的な方法は、Grok HeavyやGemini Deep Thinkのように、複数のレスポンスをサンプリングし、最適なものを選択することである。
既存の選択方法は、しばしば外部の報酬モデルに依存し、強力な報酬モデルを訓練し、さらなる計算オーバーヘッドを導入する必要がある。
代替として、従来のアプローチでは、信頼やエントロピーといった本質的なシグナルを探索してきたが、これらの信号は単純な凝集にうるさい。
本研究では,高エントロピートークンは推論中に連続したグループにクラスタリングする傾向にあり,個々のトークンよりもモデルの不確実性のより安定した概念を提供する。
これらのクラスターは、推論プロセスを通してモデル不確実性の時間的パターンを明らかにする。
そこで本研究では,不確実性の時間構造を本質的な報酬として活用することを提案する。
この目的のために、まず、高エントロピー位相(HEP)としてセグメントレベルの不確実性の基本的な単位を定式化し、高エントロピートークンから始まる可変長セグメントを連続的に低エントロピートークンが現れると終了する。
次に、エントロピー・セントロイド(Entropy Centroid)を、物理における質量の中心の概念に着想を得て、軌道に沿った全てのHEPの重み付き平均位置として定義する。
直感的には、低セントロイドは初期の探索に続いて自信のある生成を示すが、これは高い応答品質に対応することがよくある。
この知見に基づいて,複数の候補の中から最も低いエントロピーセントロイドの応答を選択するLowest Centroid法を提案する。
数学、コード生成、論理的推論、エージェント的タスクに関する実験は、14Bから480Bまでのモデルスケールにわたって、Lowest Centroidが既存のベースラインを一貫して上回り、モデルサイズが大きくなるにつれて安定したゲインを提供することを示している。
コードはhttps://github.com/hkust-nlp/entropy-centroidで入手できる。
関連論文リスト
- Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - Fast and Scalable Analytical Diffusion [43.4234198410875]
解析的拡散モデルは、デノナイジングスコアを経験的ベイズ平均として定式化することにより、生成モデルへの数学的に透過的な経路を提供する。
標準定式化では、すべてのタイムステップでフルデータセットのスキャンを必要とし、データセットサイズと線形にスケーリングする。
我々は,データセットサイズから推論を分離するトレーニングフリーフレームワークであるDynamic Time-Aware Golden Subset Diffusion (GoldDiff)を提案する。
論文 参考訳(メタデータ) (2026-02-18T14:41:09Z) - Chaos, Entanglement and Measurement: Field-Theoretic Perspectives on Quantum Information Dynamics [0.0]
I study scrambling and pseudorandomness in the Brownian Sachdev-Ye-Kitaev model。
弱測定SYKクラスターに対する場の理論を構築する。
測定専用SYKクラスタのための高次再正規化グループを開発した。
論文 参考訳(メタデータ) (2025-12-11T10:04:30Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-04T03:42:34Z) - Bayesian Circular Regression with von Mises Quasi-Processes [57.88921637944379]
本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。
本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - A Dynamical System View of Langevin-Based Non-Convex Sampling [44.002384711340966]
非サンプリングは機械学習における重要な課題であり、ディープラーニングにおける非レート最適化の中心であり、その重要性を近似する。
既存の保証は通常、より望ましい最終段階の反復よりも平均距離のみを保持する。
我々は、理論システムからいくつかのツールを活用することにより、上記の問題を解消する新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-25T09:43:36Z) - Sampling Approximately Low-Rank Ising Models: MCMC meets Variational
Methods [35.24886589614034]
一般相互作用が$J$である超キューブ上の二次定値イジングモデルを考える。
我々の一般的な結果は、低ランクのIsingモデルに対する最初のサンプリングアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2022-02-17T21:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。