論文の概要: Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards
- arxiv url: http://arxiv.org/abs/2306.04488v2
- Date: Mon, 16 Oct 2023 13:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:06:15.643570
- Title: Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards
- Title(参考訳): リワードスープ:多様な報酬を微調整した重量補間によるパレート最適アライメントに向けて
- Authors: Alexandre Ram\'e, Guillaume Couairon, Mustafa Shukor, Corentin
Dancette, Jean-Baptiste Gaya, Laure Soulier and Matthieu Cord
- Abstract要約: ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
- 参考スコア(独自算出の注目度): 101.7246658985579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are first pre-trained on vast unsupervised datasets and
then fine-tuned on labeled data. Reinforcement learning, notably from human
feedback (RLHF), can further align the network with the intended usage. Yet the
imperfections in the proxy reward may hinder the training and lead to
suboptimal results; the diversity of objectives in real-world tasks and human
opinions exacerbate the issue. This paper proposes embracing the heterogeneity
of diverse rewards by following a multi-policy strategy. Rather than focusing
on a single a priori reward, we aim for Pareto-optimal generalization across
the entire space of preferences. To this end, we propose rewarded soup, first
specializing multiple networks independently (one for each proxy reward) and
then interpolating their weights linearly. This succeeds empirically because we
show that the weights remain linearly connected when fine-tuned on diverse
rewards from a shared pre-trained initialization. We demonstrate the
effectiveness of our approach for text-to-text (summarization, Q&A, helpful
assistant, review), text-image (image captioning, text-to-image generation,
visual grounding, VQA), and control (locomotion) tasks. We hope to enhance the
alignment of deep models, and how they interact with the world in all its
diversity.
- Abstract(参考訳): ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
強化学習、特に人間からのフィードバック(RLHF)は、ネットワークを意図した用途に合わせることができる。
しかし、代理報酬の不完全性はトレーニングを妨げ、最適な結果をもたらす可能性がある。
本稿では,マルチポリシー戦略に従うことによって,多様な報酬の多様性を受け入れることを提案する。
1つの優先報酬に焦点をあてるのではなく、選好空間全体にわたってパレート最適一般化を目指す。
そこで我々は、まず複数のネットワークを独立に(プロキシの報酬ごとに)指定し、その重みを線形に補間する報奨スープを提案する。
これは経験的に成功し、共有事前学習された初期化から様々な報酬を微調整した場合、重みが線形に連結されることを示したためである。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA),制御(移動)タスクに対するアプローチの有効性を示す。
私たちは、深層モデルの整合性を高め、その多様性のすべてにおいて、どのように世界と相互作用するかを望んでいる。
関連論文リスト
- Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。
我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文 参考訳(メタデータ) (2021-05-07T11:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。