論文の概要: Mining Intrinsic Rewards from LLM Hidden States for Efficient Best-of-N Sampling
- arxiv url: http://arxiv.org/abs/2505.12225v2
- Date: Tue, 29 Jul 2025 01:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.164981
- Title: Mining Intrinsic Rewards from LLM Hidden States for Efficient Best-of-N Sampling
- Title(参考訳): 効率的なベストオブNサンプリングのためのLLM隠れ状態からのマイニング固有の逆流
- Authors: Jizhou Guo, Zhaomin Wu, Hanchen Yang, Philip S. Yu,
- Abstract要約: 本稿では,LLM(Large Language Model)の性能向上のための,新しい軽量な技術であるSWIFTを紹介する。
SWIFTはベースラインのパラメータの0.005%未満でベースラインよりも優れており、トレーニングには少数のサンプルしか必要としない。
SWIFTの堅牢性、ロジットによるいくつかのクローズドソースモデルの適用性、従来の報酬モデルと組み合わせられる能力は、その実用的価値を裏付けるものである。
- 参考スコア(独自算出の注目度): 34.69646110042311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing Large Language Model (LLM)'s performance with best-of-N sampling is effective and has attracted significant attention. However, it is computationally prohibitive due to massive, data-hungry text-based reward models. By changing the data source from text to hidden states, we introduce SWIFT (Simple Weighted Intrinsic Feedback Technique), a novel, lightweight technique that leverages the rich information embedded in LLM hidden states to address these issues, which operates on token-level and consists of only linear layers. Extensive experiments show that SWIFT outperforms baselines with less than 0.005% of the parameters of baselines, requiring only a few samples for training, demonstrating significant efficiency improvement. SWIFT's robust scalability, applicability to some closed-source models via logits, and ability to be combined with traditional reward models to yield further performance gains underscore its practical value.
- Abstract(参考訳): また,Large Language Model (LLM) の性能向上が有効であり,注目されている。
しかし、大量のデータハングリーテキストベースの報酬モデルのため、計算的に禁止されている。
SWIFT(Simple Weighted Intientsic Feedback Technique)は,データソースをテキストから隠れ状態に変更することにより,LLMの隠れ状態に埋め込まれたリッチな情報を活用して,トークンレベルで動作し,線形層のみで構成された,新しい軽量な手法である。
大規模な実験により、SWIFTはベースラインのパラメータの0.005%未満でベースラインよりも優れており、トレーニングには少数のサンプルしか必要とせず、大幅な効率改善が示されている。
SWIFTの堅牢なスケーラビリティ、ロジットによるいくつかのクローズドソースモデルの適用性、従来の報酬モデルと組み合わせてさらなるパフォーマンス向上を実現する能力は、その実用的価値を浮き彫りにしている。
関連論文リスト
- Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。
より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。
本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文 参考訳(メタデータ) (2024-09-15T15:12:45Z) - ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。
RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。
ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。
我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文 参考訳(メタデータ) (2024-06-28T01:44:57Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - SLMRec: Distilling Large Language Models into Small for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。
最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。
LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文 参考訳(メタデータ) (2024-05-28T07:12:06Z) - GPTA: Generative Prompt Tuning Assistant for Synergistic Downstream Neural Network Enhancement with LLMs [11.572835837392867]
本研究はGPTA(Large Language Model assistance training framework)を導入し,プレフィックスプロンプトによる下流タスクモデルのトレーニングを強化する。
LLMのデータ露出を最小限にすることで、下流タスクモデルトレーニングにLLMを適用する際のセキュリティと法的課題に対処する。
論文 参考訳(メタデータ) (2024-03-29T23:04:04Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。