論文の概要: Cascade Reward Sampling for Efficient Decoding-Time Alignment
- arxiv url: http://arxiv.org/abs/2406.16306v1
- Date: Mon, 24 Jun 2024 04:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-25 16:13:09.851537
- Title: Cascade Reward Sampling for Efficient Decoding-Time Alignment
- Title(参考訳): 効率的な復号時間アライメントのためのカスケードリワードサンプリング
- Authors: Bolian Li, Yifan Wang, Ananth Grama, Ruqi Zhang,
- Abstract要約: 我々は,高逆・高次テキストを生成するためのCARDSを提案する。
CARDSは、非常に低コストで高解像度かつ高解像度のテキストを生成することを保証している。
実験は、生成効率とアライメントレーティングの両方において、かなりの上昇を示します。
- 参考スコア(独自算出の注目度): 18.537156067913283
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences is critical for their deployment. Recently, decoding-time alignment has emerged as an effective plug-and-play technique that requires no fine-tuning of model parameters. However, generating text that achieves both high reward and high likelihood remains a significant challenge. Existing methods often fail to generate high-reward text or incur substantial computational costs. In this paper, we propose Cascade Reward Sampling (CARDS) to address both issues, guaranteeing the generation of high-reward and high-likelihood text with significantly low costs. Based on our analysis of reward models (RMs) on incomplete text and our observation that high-reward prefixes induce high-reward complete text, we use rejection sampling to iteratively generate small semantic segments to form such prefixes. The segment length is dynamically determined by the predictive uncertainty of LLMs. This strategy guarantees desirable prefixes for subsequent generations and significantly reduces wasteful token re-generations and the number of reward model scoring. Our experiments demonstrate substantial gains in both generation efficiency and alignment ratings compared to the baselines, achieving five times faster text generation and 99\% win-ties in GPT-4/Claude-3 helpfulness evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の好みで調整することは、デプロイメントに不可欠である。
近年,モデルパラメータの微調整を必要としない効果的なプラグアンドプレイ技術として,復号時間アライメントが出現している。
しかし、高い報酬と高い可能性の両方を達成するテキストを生成することは大きな課題である。
既存の手法は高解像度のテキストを生成したり、かなりの計算コストを発生させるのに失敗することが多い。
本稿では,両問題に対処するカスケード・リワード・サンプリング(CARDS)を提案する。
不完全テキスト上での報酬モデル(RM)の分析と、高逆プレフィックスが高逆完全テキストを誘導する観察に基づいて、リジェクションサンプリングを用いて、小さなセマンティックセグメントを反復的に生成し、そのようなプレフィックスを形成する。
セグメント長はLLMの予測不確実性によって動的に決定される。
この戦略は、次の世代に望ましいプレフィックスを保証し、無駄なトークンの再生成と報酬モデルのスコアリング数を著しく削減する。
本実験は, GPT-4/Claude-3の有用性評価において, テキスト生成の5倍, 99%の勝利率を達成し, 生成効率とアライメント評価の両面で有意な向上を示した。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Threshold Selection for Iterative Decoding of $(v,w)$-regular Binary Codes [84.0257274213152]
繰り返しビットフリップデコーダは、sparse $(v,w)$-regular符号の効率的な選択である。
閉形式モデルに基づくしきい値決定のための具体的な基準を提案する。
論文 参考訳(メタデータ) (2025-01-23T17:38:22Z) - Constrained Decoding with Speculative Lookaheads [13.085794785286305]
我々は投機的ルックアヘッド(CSL)を用いた制約付き復号法を提案する。
CSLは、最近提案された投機的復号化のアイデアによって動機付けられている。
3つのLLMファミリーを持つ2つの制約デコードタスクにおけるCDSLの評価を行い、CDLHの2.2倍から12.15倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-12-09T22:29:57Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - WARP-LCA: Efficient Convolutional Sparse Coding with Locally Competitive Algorithm [1.4186974630564675]
WARP-LCAは,従来のLCAに比べて桁違いに収束し,最小限にまで達することを示す。
WARP-LCAは, 深い認識パイプラインに適用した場合, 再現性, 復調性, およびロバスト性において優れた特性を示す。
論文 参考訳(メタデータ) (2024-10-24T14:47:36Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Hierarchical Skip Decoding for Efficient Autoregressive Text Generation [9.16858904192541]
本稿では,効率的な自己回帰テキスト生成のための階層型スキップ復号法(HSD)を提案する。
ほぼ半分のレイヤがスキップされているため、HSDはバニラの自動回帰デコードに比べてテキスト品質の90%を維持できる。
論文 参考訳(メタデータ) (2024-03-22T02:44:05Z) - Quantum Algorithm Exploration using Application-Oriented Performance
Benchmarks [0.0]
Application-Oriented BenchmarksのQED-Cスイートは、量子コンピュータの性能特性を測定する機能を提供する。
我々は,このベンチマーク手法がより複雑なアプリケーションに適用される可能性を広げる上での課題について検討する。
論文 参考訳(メタデータ) (2024-02-14T06:55:50Z) - Reward-Augmented Decoding: Efficient Controlled Text Generation With a
Unidirectional Reward Model [47.722856876213946]
Reward-Augmented Decoding (RAD) は、言語モデルに特定の特性を持つテキストを生成するよう促すために、小さな一方向の報酬モデルを使用するテキスト生成プロシージャである。
一方向の報酬モデルを使用することで、RADは前世代のステップからアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。
論文 参考訳(メタデータ) (2023-10-14T07:19:47Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - KEST: Kernel Distance Based Efficient Self-Training for Improving
Controllable Text Generation [24.47531522553703]
我々は,これらの問題に対処するための,新規かつ効率的な自己学習フレームワークであるKESTを提案する。
KESTは、標準的なクロスエントロピーではなくカーネルベースの損失を利用して、共有非自己回帰生成器によって生成されたソフトな擬似テキストから学習する。
3つの制御可能な生成タスクの実験により、KESTは、複数の強いベースラインに対して、同等のテキスト流速と生成の多様性を維持しながら、制御精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-06-17T19:40:57Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Self-Adversarial Learning with Comparative Discrimination for Text
Generation [111.18614166615968]
本稿では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。
トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。
テキスト生成ベンチマークデータセットの実験により,提案手法は品質と多様性の両方を大幅に改善することが示された。
論文 参考訳(メタデータ) (2020-01-31T07:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。