論文の概要: Towards Cost-Effective Reward Guided Text Generation
- arxiv url: http://arxiv.org/abs/2502.04517v1
- Date: Thu, 06 Feb 2025 21:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:14.660387
- Title: Towards Cost-Effective Reward Guided Text Generation
- Title(参考訳): コスト・エフェクティブ・リワードによるテキスト生成に向けて
- Authors: Ahmad Rashid, Ruotian Wu, Rongqi Fan, Hongliang Li, Agustinus Kristiadi, Pascal Poupart,
- Abstract要約: Reward-guided Text Generation (RGTG) は、人間のフィードバックからオフラインで強化学習を行うための代替手段として登場した。
本稿では、Bradley-Terry損失を用いてトレーニングされた新たな報酬モデルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 27.11836864643437
- License:
- Abstract: Reward-guided text generation (RGTG) has emerged as a viable alternative to offline reinforcement learning from human feedback (RLHF). RGTG methods can align baseline language models to human preferences without further training like in standard RLHF methods. However, they rely on a reward model to score each candidate token generated by the language model at inference, incurring significant test-time overhead. Additionally, the reward model is usually only trained to score full sequences, which can lead to sub-optimal choices for partial sequences. In this work, we present a novel reward model architecture that is trained, using a Bradley-Terry loss, to prefer the optimal expansion of a sequence with just a \emph{single call} to the reward model at each step of the generation process. That is, a score for all possible candidate tokens is generated simultaneously, leading to efficient inference. We theoretically analyze various RGTG reward models and demonstrate that prior techniques prefer sub-optimal sequences compared to our method during inference. Empirically, our reward model leads to significantly faster inference than other RGTG methods. It requires fewer calls to the reward model and performs competitively compared to previous RGTG and offline RLHF methods.
- Abstract(参考訳): Reward-guided Text Generation (RGTG) は、人間のフィードバック(RLHF)からオフラインで強化学習を行うための代替手段として登場した。
RGTG法は、標準のRLHF法のように、さらなる訓練をすることなく、ベースライン言語モデルを人間の好みに合わせることができる。
しかし、彼らは、言語モデルによって生成された各候補トークンを推論時にスコア付けするために、報酬モデルに依存しており、かなりのテスト時間オーバーヘッドが生じる。
さらに、報酬モデルは通常、完全なシーケンスをスコアするためにのみ訓練されるため、部分的なシーケンスに対する最適以下の選択につながる可能性がある。
本研究では、Bradley-Terry損失を用いて、生成プロセスの各ステップにおける報酬モデルに対して、単に 'emph{single call} のみを含むシーケンスの最適な拡張を優先するように訓練された新しい報酬モデルアーキテクチャを提案する。
すなわち、全ての候補トークンに対するスコアが同時に生成され、効率的な推論が導かれる。
理論的には, 様々なRGTG報酬モデルを分析し, 推定時の手法と比較して, 先行技術が準最適シーケンスを好むことを示す。
経験的に、我々の報酬モデルは他のRGTG法よりもはるかに高速な推論をもたらす。
報酬モデルへの呼び出しを少なくし、以前のRGTGやオフラインのRLHFメソッドと比較して競合的に実行する。
関連論文リスト
- Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。
本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文 参考訳(メタデータ) (2025-01-06T06:17:56Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - A Critical Look At Tokenwise Reward-Guided Text Generation [23.908449840589284]
フルシーケンスでトレーニングされた報酬モデルは、スコアリング部分シーケンスと互換性がないことを示す。
本稿では,部分列を明示的に学習するBradley-Terry報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T00:19:40Z) - ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2023-08-04T09:35:45Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - GROOT: Corrective Reward Optimization for Generative Sequential Labeling [10.306943706927004]
テキストシーケンスの生成的リワード最適化のためのフレームワークであるGROOTを提案する。
GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。
4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。
論文 参考訳(メタデータ) (2022-09-29T11:35:47Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。