論文の概要: Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards
- arxiv url: http://arxiv.org/abs/2306.04488v2
- Date: Mon, 16 Oct 2023 13:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:06:15.643570
- Title: Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards
- Title(参考訳): リワードスープ:多様な報酬を微調整した重量補間によるパレート最適アライメントに向けて
- Authors: Alexandre Ram\'e, Guillaume Couairon, Mustafa Shukor, Corentin
Dancette, Jean-Baptiste Gaya, Laure Soulier and Matthieu Cord
- Abstract要約: ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
- 参考スコア(独自算出の注目度): 101.7246658985579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are first pre-trained on vast unsupervised datasets and
then fine-tuned on labeled data. Reinforcement learning, notably from human
feedback (RLHF), can further align the network with the intended usage. Yet the
imperfections in the proxy reward may hinder the training and lead to
suboptimal results; the diversity of objectives in real-world tasks and human
opinions exacerbate the issue. This paper proposes embracing the heterogeneity
of diverse rewards by following a multi-policy strategy. Rather than focusing
on a single a priori reward, we aim for Pareto-optimal generalization across
the entire space of preferences. To this end, we propose rewarded soup, first
specializing multiple networks independently (one for each proxy reward) and
then interpolating their weights linearly. This succeeds empirically because we
show that the weights remain linearly connected when fine-tuned on diverse
rewards from a shared pre-trained initialization. We demonstrate the
effectiveness of our approach for text-to-text (summarization, Q&A, helpful
assistant, review), text-image (image captioning, text-to-image generation,
visual grounding, VQA), and control (locomotion) tasks. We hope to enhance the
alignment of deep models, and how they interact with the world in all its
diversity.
- Abstract(参考訳): ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
強化学習、特に人間からのフィードバック(RLHF)は、ネットワークを意図した用途に合わせることができる。
しかし、代理報酬の不完全性はトレーニングを妨げ、最適な結果をもたらす可能性がある。
本稿では,マルチポリシー戦略に従うことによって,多様な報酬の多様性を受け入れることを提案する。
1つの優先報酬に焦点をあてるのではなく、選好空間全体にわたってパレート最適一般化を目指す。
そこで我々は、まず複数のネットワークを独立に(プロキシの報酬ごとに)指定し、その重みを線形に補間する報奨スープを提案する。
これは経験的に成功し、共有事前学習された初期化から様々な報酬を微調整した場合、重みが線形に連結されることを示したためである。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA),制御(移動)タスクに対するアプローチの有効性を示す。
私たちは、深層モデルの整合性を高め、その多様性のすべてにおいて、どのように世界と相互作用するかを望んでいる。
関連論文リスト
- MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Reward prediction for representation learning and reward shaping [0.8883733362171032]
報酬予測のための自己監督による状態表現の学習を提案する。
我々は、ポリシー学習中に報酬予測器を用いて報酬を形作ることにより、既成のrlエージェントのトレーニングを強化する。
論文 参考訳(メタデータ) (2021-05-07T11:29:32Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Learning by Competition of Self-Interested Reinforcement Learning Agents [0.0]
人工知能ニューラルネットワークは、REINFORCE学習規則を実装したユニットに報酬信号を均一にブロードキャストすることで訓練することができる。
隠れたユニットに対する報酬信号の交換を、ユニットの出力重量の標準である$L2$の変更で提案する。
実験の結果, 最大化学習ネットワークはREINFORCEよりかなり高速に学習でき, バックプロパゲーションよりもわずかに遅いことがわかった。
論文 参考訳(メタデータ) (2020-10-19T18:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。