Fugu-MT 論文翻訳(概要): Fast Best-of-N Decoding via Speculative Rejection

論文の概要: Fast Best-of-N Decoding via Speculative Rejection

arxiv url: http://arxiv.org/abs/2410.20290v2
Date: Thu, 31 Oct 2024 18:27:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.901856
Title: Fast Best-of-N Decoding via Speculative Rejection
Title（参考訳）: 投機的拒絶による高速N値復号
Authors: Hanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette,
Abstract要約: 推論時間アライメント手法は、訓練後の複雑なステップを避ける。 Best-of-Nは、標準的なデコード戦略よりも推論時にはるかに多くのリソースを必要とする。本稿では,予測時間アライメントアルゴリズムであるSpeculative Rejectionを紹介する。
参考スコア（独自算出の注目度）: 49.11955026456773
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The safe and effective deployment of Large Language Models (LLMs) involves a critical step called alignment, which ensures that the model's responses are in accordance with human preferences. Prevalent alignment techniques, such as DPO, PPO and their variants, align LLMs by changing the pre-trained model weights during a phase called post-training. While predominant, these post-training methods add substantial complexity before LLMs can be deployed. Inference-time alignment methods avoid the complex post-training step and instead bias the generation towards responses that are aligned with human preferences. The best-known inference-time alignment method, called Best-of-N, is as effective as the state-of-the-art post-training procedures. Unfortunately, Best-of-N requires vastly more resources at inference time than standard decoding strategies, which makes it computationally not viable. In this work, we introduce Speculative Rejection, a computationally-viable inference-time alignment algorithm. It generates high-scoring responses according to a given reward model, like Best-of-N does, while being between 16 to 32 times more computationally efficient.
Abstract（参考訳）: LLM(Large Language Models)の安全かつ効果的なデプロイには、アライメントと呼ばれる重要なステップが伴う。 DPO、PPO、およびそれらの変種のような一般的なアライメント技術は、後トレーニングと呼ばれるフェーズにおいて、事前訓練されたモデルの重みを変更することでLCMを整列させる。しかし、これらのポストトレーニング手法は、LSMがデプロイされる前に相当な複雑さを増す。推論時間アライメント手法は、訓練後の複雑なステップを回避し、代わりに人間の嗜好に沿った反応に対して生成をバイアスする。ベスト・オブ・N(Best-of-N)と呼ばれる最もよく知られた推論時間アライメント法は、最先端の訓練手順と同じくらい効果的である。残念なことに、Best-of-Nは標準的なデコード戦略よりも推論時にはるかに多くのリソースを必要とするため、計算上は不可能である。本研究では,予測時間アライメントアルゴリズムであるSpeculative Rejectionを導入する。与えられた報酬モデルに従って、Best-of-Nのようにハイスコアの応答を生成するが、計算効率は16倍から32倍である。

関連論文リスト

PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。 PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文参考訳（メタデータ） (2025-07-26T21:46:32Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文参考訳（メタデータ） (2025-07-01T23:30:15Z)
SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin [16.346540681903804]
我々はtextbfDynamic value margin (SPPD) を用いた textbfProcess textbfPreference Learning を統合した textbfSelf-training フレームワークを提案する。 7Bスケールモデルの実験は、ドメイン内およびドメイン外の数学ベンチマークで優れた性能を示す。
論文参考訳（メタデータ） (2025-02-19T08:11:26Z)
Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文参考訳（メタデータ） (2025-02-05T20:47:44Z)
Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文参考訳（メタデータ） (2024-08-19T09:29:31Z)
SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-21T18:05:35Z)
One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文参考訳（メタデータ） (2024-05-29T22:12:52Z)
Decoding-time Realignment of Language Models [44.54462397717971]
そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。 DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
論文参考訳（メタデータ） (2024-02-05T13:31:28Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。