論文の概要: GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment
- arxiv url: http://arxiv.org/abs/2410.08193v1
- Date: Thu, 10 Oct 2024 17:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:55:58.889051
- Title: GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment
- Title(参考訳): GenARM:テスト時間アライメントのための自己回帰リワードモデルを備えたリワードガイド生成
- Authors: Yuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh,
- Abstract要約: GenARMはAutoregressive Reward Modelを活用したテスト時のアライメントアプローチである。
GenARMはテスト時のアライメントベースラインよりも大幅に優れています。
好みのディメンション間のリアルタイムのトレードオフと、さまざまなユーザの好みに対応することをサポートします。
- 参考スコア(独自算出の注目度): 36.52424795446663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit impressive capabilities but require careful alignment with human preferences. Traditional training-time methods finetune LLMs using human preference datasets but incur significant training costs and require repeated training to handle diverse user preferences. Test-time alignment methods address this by using reward models (RMs) to guide frozen LLMs without retraining. However, existing test-time approaches rely on trajectory-level RMs which are designed to evaluate complete responses, making them unsuitable for autoregressive text generation that requires computing next-token rewards from partial responses. To address this, we introduce GenARM, a test-time alignment approach that leverages the Autoregressive Reward Model--a novel reward parametrization designed to predict next-token rewards for efficient and effective autoregressive generation. Theoretically, we demonstrate that this parametrization can provably guide frozen LLMs toward any distribution achievable by traditional RMs within the KL-regularized reinforcement learning framework. Experimental results show that GenARM significantly outperforms prior test-time alignment baselines and matches the performance of training-time methods. Additionally, GenARM enables efficient weak-to-strong guidance, aligning larger LLMs with smaller RMs without the high costs of training larger models. Furthermore, GenARM supports multi-objective alignment, allowing real-time trade-offs between preference dimensions and catering to diverse user preferences without retraining.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示すが、人間の好みに注意深く対応する必要がある。
従来のトレーニング時間法では、人間の嗜好データセットを使用してLLMを微調整するが、トレーニングコストが大きくなり、多様なユーザの嗜好を扱うために繰り返しトレーニングが必要となる。
テストタイムアライメント手法は、報酬モデル(RM)を使用して凍結したLLMを再トレーニングせずにガイドすることでこの問題に対処する。
しかし、既存のテストタイムアプローチは、完全な応答を評価するために設計された軌道レベルのRMに依存しており、部分応答からの次点報酬の計算を必要とする自動回帰テキスト生成には適さない。
この問題を解決するために、我々は、自動回帰リワードモデルを活用するテスト時アライメントアプローチであるGenARMを紹介した。
理論的には、このパラメトリゼーションは、KL正規化強化学習フレームワーク内の従来のRMで達成可能な任意の分布に対して、凍結LDMを確実に誘導できることを実証する。
実験の結果、GenARMはテスト時のアライメントベースラインよりも大幅に優れており、トレーニング時のメソッドのパフォーマンスと一致していることがわかった。
さらに、GenARMは、より大きなモデルを訓練するコストを伴わずに、より大きなLLMをより小さなRMと整列させることにより、効率的な弱めのガイダンスを可能にする。
さらに、GenARMは多目的アライメントをサポートし、好みのディメンションとさまざまなユーザの好みに合わせてリアルタイムのトレードオフを可能にする。
関連論文リスト
- Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。