論文の概要: Reward-Augmented Decoding: Efficient Controlled Text Generation With a
Unidirectional Reward Model
- arxiv url: http://arxiv.org/abs/2310.09520v1
- Date: Sat, 14 Oct 2023 07:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 19:50:55.584535
- Title: Reward-Augmented Decoding: Efficient Controlled Text Generation With a
Unidirectional Reward Model
- Title(参考訳): Reward-Augmented Decoding:一方向リワードモデルによる効率的なテキスト生成
- Authors: Haikang Deng, Colin Raffel
- Abstract要約: Reward-Augmented Decoding (RAD) は、言語モデルに特定の特性を持つテキストを生成するよう促すために、小さな一方向の報酬モデルを使用するテキスト生成プロシージャである。
一方向の報酬モデルを使用することで、RADは前世代のステップからアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。
- 参考スコア(独自算出の注目度): 47.722856876213946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models have proven effective in a huge range of
downstream applications, they often generate text that is problematic or lacks
a desired attribute. In this paper, we introduce Reward-Augmented Decoding
(RAD), a text generation procedure that uses a small unidirectional reward
model to encourage a language model to generate text that has certain
properties. Specifically, RAD uses the reward model to score generations as
they are produced and rescales sampling probabilities to favor high-reward
tokens. By using a unidirectional reward model, RAD can cache activations from
prior generation steps to decrease computational overhead. Through experiments
on generating non-toxic and sentiment-controlled text, we demonstrate that RAD
performs best among methods that change only the generation procedure and
matches the performance of state-of-the-art methods that involve re-training
the language model. We further validate that RAD is effective on very large
language models while incurring a minimal computational overhead.
- Abstract(参考訳): 大規模な言語モデルは、ダウンストリームアプリケーションで効果的であることが証明されているが、しばしば問題のあるテキストを生成したり、望ましい属性を欠いたりする。
本稿では,小さな一方向報酬モデルを用いたテキスト生成手法であるReward-Augmented Decoding(RAD)を紹介する。
具体的には、RADは報酬モデルを使用して、生成した世代をスコアし、サンプリング確率を再スケールし、ハイリワードトークンを好む。
一方向の報酬モデルを使用することで、RADは前世代からのアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。
非有毒で感情制御されたテキストを生成する実験を通じて、radは生成手順のみを変更し、言語モデルの再学習を伴う最先端のメソッドのパフォーマンスに合致する手法の中で最高の性能を示す。
さらに、RADは計算オーバーヘッドを最小限に抑えつつ、非常に大きな言語モデルに有効であることを示す。
関連論文リスト
- Efficient Controlled Language Generation with Low-Rank Autoregressive Reward Models [13.38174941551702]
我々は、タスク固有の報酬モデルからスコアを用いて言語モデルから生成を制御するために、報酬拡張復号(RAD)アプローチを再検討する。
RADは、報酬行列を表現する際に高い柔軟性をサポートするように設計されており、復号時の計算コストが高くなることを示す。
そこで本研究では,高速かつ効率的な誘導復号化を可能にする報奨モデルの簡易かつ効率的な低ランクパラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:11:03Z) - Embedded Named Entity Recognition using Probing Classifiers [10.573861741540853]
EMBERはデコーダのみの言語モデルで名前付きエンティティ認識を微調整することなくストリーミングできる。
EMBERは高いトークン生成率を維持しており, 約1%の速度低下しか認められていない。
トレーニング、テスト、効率的なトークン分類モデルをデプロイするためのツールキットを含む、コードとデータをオンラインで公開しています。
論文 参考訳(メタデータ) (2024-03-18T12:58:16Z) - Reinforcement Learning with Token-level Feedback for Controllable Text Generation [16.117006822479407]
token-Level rewards for controllable text generationを定式化するTOLEという新しい強化学習アルゴリズムを提案する。
実験結果から,本アルゴリズムは単一属性と複数属性の制御タスクにおいて,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T08:18:37Z) - Controlled Text Generation via Language Model Arithmetic [7.687678490751105]
本稿では,大規模言語モデルの合成とバイアス化のための新しい推論フレームワークであるモデル演算を導入する。
モデル算術により生成したテキストのきめ細かい制御が可能であり, 毒性低減の課題において, 最先端の処理性能に優れることを示す。
論文 参考訳(メタデータ) (2023-11-24T13:41:12Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Tractable Control for Autoregressive Language Generation [82.79160918147852]
本稿では,自動回帰テキスト生成モデルに語彙制約を課すために,トラクタブル確率モデル(TPM)を提案する。
本稿では,GeLaToが制約付きテキスト生成のための挑戦的ベンチマークにおいて,最先端のパフォーマンスを実現することを示す。
我々の研究は、大きな言語モデルを制御するための新しい道を開き、さらに表現力のあるTPMの開発を動機付けます。
論文 参考訳(メタデータ) (2023-04-15T00:19:44Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。