論文の概要: TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
- arxiv url: http://arxiv.org/abs/2510.16449v1
- Date: Sat, 18 Oct 2025 11:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.819412
- Title: TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
- Title(参考訳): TrajSelector:大規模推論モデルにおける効率良く効果的なNの潜在表現
- Authors: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
Best-of-N選択パラダイムは、複数の独立に生成された推論軌道から選択することで、スケーラブルなパフォーマンス改善をもたらす。
プロセスレベルのスコアリングのために,サンプルLLMの隠れ状態を利用する,効率的かつ効果的なBest-of-NフレームワークであるTrajSelectorを紹介した。
- 参考スコア(独自算出の注目度): 21.82904448561646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable progress in complex reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that allocate additional compute during inference. Among these, external TTS (particularly the Best-of-N selection paradigm) yields scalable performance improvements by selecting from multiple independently generated reasoning trajectories. However, this approach faces key limitations: (i) the high computational overhead of deploying process reward models, (ii) the underutilization of the LLM's intrinsic latent representations. We introduce TrajSelector, an efficient and effective Best-of-N framework that exploit the hidden states in the sampler LLM for process-level scoring. A lightweight verifier (with only 0.6B parameters) evaluates the quality of step-wise trajectory, and then aggregates these scores to identify the optimal reasoning trajectory. Our framework employs a fully data-driven, end-to-end training recipe that eliminates reliance on massive step-level annotations. Experiential results across five benchmarks demonstrate that TrajSelector delivers consistent performance gains. In Best-of-32 settings, it surpasses majority voting by 4.61% accuracy and outperforms existing process reward models by 4.31% to 12.21%, all while maintaining lower inference costs.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示しており、主に推論中に追加計算を割り当てるTTSパラダイムによって実現されている。
これらのうち、外部TS(特にBest-of-N選択パラダイム)は、複数の独立に生成された推論軌道から選択することで、スケーラブルな性能向上をもたらす。
しかし、このアプローチは重要な制限に直面します。
i)プロセス報酬モデルをデプロイする際の計算オーバーヘッドが高いこと。
(ii) LLMの本質的な潜在表現の未利用。
プロセスレベルのスコアリングのために,サンプルLLMの隠れ状態を利用する,効率的かつ効果的なBest-of-NフレームワークであるTrajSelectorを紹介した。
軽量検証器(0.6Bパラメータのみ)は、ステップワイズ軌道の質を評価し、これらのスコアを集約して最適な推論軌道を特定する。
当社のフレームワークでは、大規模なステップレベルのアノテーションへの依存を排除した、完全にデータ駆動のエンドツーエンドのトレーニングレシピを採用しています。
5つのベンチマークでの実験結果からは、TrajSelectorが一貫したパフォーマンス向上を実現している。
32のベストセッティングでは、過半数の投票を4.61%上回り、既存のプロセス報酬モデルを4.31%から12.21%上回っている。
関連論文リスト
- Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection [29.459431336830267]
本研究では,タスクレベルとグローバルレベルの両方のモデル性能に対して,個々のサンプルの微細な寄与を定量化する勾配のない手法を提案する。
我々は、RICoスコアに基づいて訓練された軽量な選択パラダイムを導入し、厳密な線形推論の複雑さでスケーラブルなデータ選択を可能にする。
論文 参考訳(メタデータ) (2025-05-08T15:17:37Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。
本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。
ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:11:59Z) - An Innovative Data-Driven and Adaptive Reinforcement Learning Approach for Context-Aware Prescriptive Process Monitoring [3.4437362489150254]
本稿では,Fun-Tuned Offline Reinforcement Learning Augmented Process Sequence Optimizationという新しいフレームワークを提案する。
FORLAPSは、状態依存型報酬形成機構によって強化された学習を活用して、ビジネスプロセスにおける最適な実行経路を特定することを目的としている。
また,FOLAPSは資源使用時間の31%削減,プロセス時間の23%削減を実現している。
論文 参考訳(メタデータ) (2025-01-17T20:31:35Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。