Fugu-MT 論文翻訳(概要): Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards

論文の概要: Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards

arxiv url: http://arxiv.org/abs/2306.04488v2
Date: Mon, 16 Oct 2023 13:53:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 23:06:15.643570
Title: Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards
Title（参考訳）: リワードスープ:多様な報酬を微調整した重量補間によるパレート最適アライメントに向けて
Authors: Alexandre Ram\'e, Guillaume Couairon, Mustafa Shukor, Corentin Dancette, Jean-Baptiste Gaya, Laure Soulier and Matthieu Cord
Abstract要約: ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
参考スコア（独自算出の注目度）: 101.7246658985579
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models are first pre-trained on vast unsupervised datasets and then fine-tuned on labeled data. Reinforcement learning, notably from human feedback (RLHF), can further align the network with the intended usage. Yet the imperfections in the proxy reward may hinder the training and lead to suboptimal results; the diversity of objectives in real-world tasks and human opinions exacerbate the issue. This paper proposes embracing the heterogeneity of diverse rewards by following a multi-policy strategy. Rather than focusing on a single a priori reward, we aim for Pareto-optimal generalization across the entire space of preferences. To this end, we propose rewarded soup, first specializing multiple networks independently (one for each proxy reward) and then interpolating their weights linearly. This succeeds empirically because we show that the weights remain linearly connected when fine-tuned on diverse rewards from a shared pre-trained initialization. We demonstrate the effectiveness of our approach for text-to-text (summarization, Q&A, helpful assistant, review), text-image (image captioning, text-to-image generation, visual grounding, VQA), and control (locomotion) tasks. We hope to enhance the alignment of deep models, and how they interact with the world in all its diversity.
Abstract（参考訳）: ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。強化学習、特に人間からのフィードバック(RLHF)は、ネットワークを意図した用途に合わせることができる。しかし、代理報酬の不完全性はトレーニングを妨げ、最適な結果をもたらす可能性がある。本稿では,マルチポリシー戦略に従うことによって,多様な報酬の多様性を受け入れることを提案する。 1つの優先報酬に焦点をあてるのではなく、選好空間全体にわたってパレート最適一般化を目指す。そこで我々は、まず複数のネットワークを独立に(プロキシの報酬ごとに)指定し、その重みを線形に補間する報奨スープを提案する。これは経験的に成功し、共有事前学習された初期化から様々な報酬を微調整した場合、重みが線形に連結されることを示したためである。我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA),制御(移動)タスクに対するアプローチの有効性を示す。私たちは、深層モデルの整合性を高め、その多様性のすべてにおいて、どのように世界と相互作用するかを望んでいる。

関連論文リスト

VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences [13.337649128532307]
嗜好に基づくRLは、比較フィードバックから報酬を学ぶことによって、これらの落とし穴のいくつかを緩和する。単一の最終状態の画像は、一般的にエージェントの完全な動きを捉えるのに失敗する。本稿では,フィードバックの精度を向上し,報酬学習とエージェントのポリシーの整合性を向上する2部構成のソリューションを提案する。
論文参考訳（メタデータ） (2025-03-18T01:51:27Z)
Intersectional Fairness in Reinforcement Learning with Large State and Constraint Spaces [16.400288624027375]
多くの実世界の環境では、複数の目的を同時に最適化することが重要である。目的を1つのスカラー報酬関数の状態ベース再重み付けによって定義する多目的最適化問題を考察する。目的数が指数関数的に大きい場合でも、これらの多目的RL問題を解決するためのオラクル効率のアルゴリズムを提供する。
論文参考訳（メタデータ） (2025-02-17T14:25:33Z)
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。 RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。 RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文参考訳（メタデータ） (2024-12-06T08:04:02Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文参考訳（メタデータ） (2024-05-27T12:59:35Z)
Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文参考訳（メタデータ） (2024-05-23T14:53:54Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。