論文の概要: Cascade Reward Sampling for Efficient Decoding-Time Alignment
- arxiv url: http://arxiv.org/abs/2406.16306v1
- Date: Mon, 24 Jun 2024 04:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:13:09.851537
- Title: Cascade Reward Sampling for Efficient Decoding-Time Alignment
- Title(参考訳): 効率的な復号時間アライメントのためのカスケードリワードサンプリング
- Authors: Bolian Li, Yifan Wang, Ananth Grama, Ruqi Zhang,
- Abstract要約: 我々は,高逆・高次テキストを生成するためのCARDSを提案する。
CARDSは、非常に低コストで高解像度かつ高解像度のテキストを生成することを保証している。
実験は、生成効率とアライメントレーティングの両方において、かなりの上昇を示します。
- 参考スコア(独自算出の注目度): 18.537156067913283
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences is critical for their deployment. Recently, decoding-time alignment has emerged as an effective plug-and-play technique that requires no fine-tuning of model parameters. However, generating text that achieves both high reward and high likelihood remains a significant challenge. Existing methods often fail to generate high-reward text or incur substantial computational costs. In this paper, we propose Cascade Reward Sampling (CARDS) to address both issues, guaranteeing the generation of high-reward and high-likelihood text with significantly low costs. Based on our analysis of reward models (RMs) on incomplete text and our observation that high-reward prefixes induce high-reward complete text, we use rejection sampling to iteratively generate small semantic segments to form such prefixes. The segment length is dynamically determined by the predictive uncertainty of LLMs. This strategy guarantees desirable prefixes for subsequent generations and significantly reduces wasteful token re-generations and the number of reward model scoring. Our experiments demonstrate substantial gains in both generation efficiency and alignment ratings compared to the baselines, achieving five times faster text generation and 99\% win-ties in GPT-4/Claude-3 helpfulness evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の好みで調整することは、デプロイメントに不可欠である。
近年,モデルパラメータの微調整を必要としない効果的なプラグアンドプレイ技術として,復号時間アライメントが出現している。
しかし、高い報酬と高い可能性の両方を達成するテキストを生成することは大きな課題である。
既存の手法は高解像度のテキストを生成したり、かなりの計算コストを発生させるのに失敗することが多い。
本稿では,両問題に対処するカスケード・リワード・サンプリング(CARDS)を提案する。
不完全テキスト上での報酬モデル(RM)の分析と、高逆プレフィックスが高逆完全テキストを誘導する観察に基づいて、リジェクションサンプリングを用いて、小さなセマンティックセグメントを反復的に生成し、そのようなプレフィックスを形成する。
セグメント長はLLMの予測不確実性によって動的に決定される。
この戦略は、次の世代に望ましいプレフィックスを保証し、無駄なトークンの再生成と報酬モデルのスコアリング数を著しく削減する。
本実験は, GPT-4/Claude-3の有用性評価において, テキスト生成の5倍, 99%の勝利率を達成し, 生成効率とアライメント評価の両面で有意な向上を示した。
関連論文リスト
- Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - Hierarchical Skip Decoding for Efficient Autoregressive Text Generation [9.16858904192541]
本稿では,効率的な自己回帰テキスト生成のための階層型スキップ復号法(HSD)を提案する。
ほぼ半分のレイヤがスキップされているため、HSDはバニラの自動回帰デコードに比べてテキスト品質の90%を維持できる。
論文 参考訳(メタデータ) (2024-03-22T02:44:05Z) - Reward-Augmented Decoding: Efficient Controlled Text Generation With a
Unidirectional Reward Model [47.722856876213946]
Reward-Augmented Decoding (RAD) は、言語モデルに特定の特性を持つテキストを生成するよう促すために、小さな一方向の報酬モデルを使用するテキスト生成プロシージャである。
一方向の報酬モデルを使用することで、RADは前世代のステップからアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。
論文 参考訳(メタデータ) (2023-10-14T07:19:47Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - KEST: Kernel Distance Based Efficient Self-Training for Improving
Controllable Text Generation [24.47531522553703]
我々は,これらの問題に対処するための,新規かつ効率的な自己学習フレームワークであるKESTを提案する。
KESTは、標準的なクロスエントロピーではなくカーネルベースの損失を利用して、共有非自己回帰生成器によって生成されたソフトな擬似テキストから学習する。
3つの制御可能な生成タスクの実験により、KESTは、複数の強いベースラインに対して、同等のテキスト流速と生成の多様性を維持しながら、制御精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-06-17T19:40:57Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Self-Adversarial Learning with Comparative Discrimination for Text
Generation [111.18614166615968]
本稿では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。
トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。
テキスト生成ベンチマークデータセットの実験により,提案手法は品質と多様性の両方を大幅に改善することが示された。
論文 参考訳(メタデータ) (2020-01-31T07:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。