論文の概要: ARGS: Alignment as Reward-Guided Search
- arxiv url: http://arxiv.org/abs/2402.01694v1
- Date: Tue, 23 Jan 2024 23:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:38:36.293460
- Title: ARGS: Alignment as Reward-Guided Search
- Title(参考訳): ARGS: Reward-Guided Searchとしてのアライメント
- Authors: Maxim Khanov, Jirayu Burapacheep, Yixuan Li
- Abstract要約: 我々は、アライメントをデコードプロセスに統合する新しいフレームワーク、ARGS、アライメントをReward-Guided Searchとして紹介する。
報酬信号を用いてモデルの確率的予測を調整することにより、ARGSは人間の好みに合わせて意味的な多様性を持つテキストを生成する。
当社のフレームワークは,デコード時のアライメントを重視したもので,将来的にはよりレスポンシブな言語モデルの道を開くものと信じています。
- 参考スコア(独自算出の注目度): 17.420727709895736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models with human objectives is paramount, yet common
approaches including RLHF suffer from unstable and resource-intensive training.
In response to this challenge, we introduce ARGS, Alignment as Reward-Guided
Search, a novel framework that integrates alignment into the decoding process,
eliminating the need for expensive RL training. By adjusting the model's
probabilistic predictions using a reward signal, ARGS generates texts with
semantic diversity while being aligned with human preferences, offering a
promising and flexible solution for aligning language models. Notably, ARGS
demonstrates consistent enhancements in average reward compared to baselines
across diverse alignment tasks and various model dimensions. For example, under
the same greedy-based decoding strategy, our method improves the average reward
by 19.56% relative to the baseline and secures a preference or tie score of
64.33% in GPT-4 evaluation. We believe that our framework, emphasizing
decoding-time alignment, paves the way for more responsive language models in
the future. Code is publicly available at:
\url{https://github.com/deeplearning-wisc/args}.
- Abstract(参考訳): 大規模な言語モデルを人間の目的に合わせることは最重要だが、rlhfを含む一般的なアプローチは不安定でリソース集約的なトレーニングに苦しむ。
この課題に対応するために、我々は、高価なRLトレーニングの必要性を排除し、アライメントをデコードプロセスに統合する新しいフレームワークであるARGS、Alignment as Reward-Guided Searchを紹介する。
報酬信号を用いてモデルの確率的予測を調整することで、ARGSは人間の好みに合うようにセマンティックな多様性を持つテキストを生成し、言語モデルを調整するための有望で柔軟なソリューションを提供する。
特に、ARGSは、様々なアライメントタスクやさまざまなモデル次元にわたるベースラインと比較して、平均報酬における一貫した拡張を示している。
例えば、同じグリーディベースのデコード戦略の下では、ベースラインに対して平均報酬を19.56%改善し、GPT-4評価において64.33%の選好スコアを確保できる。
私たちは、デコーディング時間アライメントを強調した私たちのフレームワークが、将来的にもっとレスポンシブな言語モデルへの道を開くと信じています。
コードは \url{https://github.com/deeplearning-wisc/args} で公開されている。
関連論文リスト
- Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。