Fugu-MT 論文翻訳(概要): Online Bandit Learning with Offline Preference Data

論文の概要: Online Bandit Learning with Offline Preference Data

arxiv url: http://arxiv.org/abs/2406.09574v2
Date: Wed, 09 Oct 2024 07:21:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 13:37:47.831061
Title: Online Bandit Learning with Offline Preference Data
Title（参考訳）: オフライン選好データを用いたオンラインバンディット学習
Authors: Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Zheng Wen,
Abstract要約: ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
参考スコア（独自算出の注目度）: 15.799929216215672
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning with Human Feedback (RLHF) is at the core of fine-tuning methods for generative AI models for language and images. Such feedback is often sought as rank or preference feedback from human raters, as opposed to eliciting scores since the latter tends to be noisy. On the other hand, RL theory and algorithms predominantly assume that a reward feedback is available. In particular, approaches for online learning that can be helpful in adaptive data collection via active learning cannot incorporate offline preference data. In this paper, we adopt a finite-armed linear bandit model as a prototypical model of online learning. We consider an offline preference dataset to be available generated by an expert of unknown 'competence'. We propose $\texttt{warmPref-PS}$, a posterior sampling algorithm for online learning that can be warm-started with an offline dataset with noisy preference feedback. We show that by modeling the 'competence' of the expert that generated it, we are able to use such a dataset most effectively. We support our claims with novel theoretical analysis of its Bayesian regret, as well as, extensive empirical evaluation of an approximate loss function that optimizes for infinitely many arms, and performs substantially better ($25$ to $50\%$ regret reduction) than baselines.
Abstract（参考訳）: Reinforcement Learning with Human Feedback (RLHF)は、言語と画像のための生成AIモデルのための微調整手法の中核にある。このようなフィードバックは、人間からの評価者からのランクや好みのフィードバックとして求められることが多いが、後者は騒々しい傾向にあるため、スコアを引き出すのとは対照的である。一方、RL理論とアルゴリズムは、主に報酬フィードバックが利用できると仮定する。特に、アクティブラーニングによる適応データ収集に有用なオンラインラーニングのアプローチでは、オフラインの選好データを組み込むことはできない。本稿では,オンライン学習のプロトタイプモデルとして,有限武装線形バンディットモデルを採用する。我々は、未知の'コンピテンス'の専門家が生成するオフラインの選好データセットについて検討する。オンライン学習のための後続サンプリングアルゴリズムである$\texttt{warmPref-PS}$を提案する。生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。我々はベイズ的後悔の新たな理論的分析と、無限に多くの腕を最適化し、ベースラインよりもはるかに優れた(25ドルから50ドル%の後悔削減)近似損失関数の広範な実験的評価を支持した。

関連論文リスト

Active Human Feedback Collection via Neural Contextual Dueling Bandits [84.7608942821423]
本稿では,人間の嗜好フィードバックを抽出するアルゴリズムであるNeural-ADBを提案する。優先フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少することを示す。
論文参考訳（メタデータ） (2025-04-16T12:16:10Z)
Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-03T00:36:31Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。この設定で PbRL に関する最初の理論的保証を提供し、単純ベイズ的後悔の上限を確立する。
論文参考訳（メタデータ） (2025-01-31T03:55:10Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-26T04:41:08Z)
Listwise Reward Estimation for Offline Preference-based Reinforcement Learning [20.151932308777553]
リストワイズ・リワード推定(LiRE)は、オフラインの推論に基づく強化学習(PbRL)のための新しいアプローチである。 LiRE は Ranked List of Trajectories (RLT) を構築することで既存の PbRL メソッドに基づいている。実験では,フィードバック数やフィードバックノイズに関して,緩やかなフィードバック予算や頑健さを享受しながらも,LiREの優位性を実証した。
論文参考訳（メタデータ） (2024-08-08T03:18:42Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。 OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文参考訳（メタデータ） (2024-06-11T18:55:04Z)
Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Efficient Online Learning with Offline Datasets for Infinite Horizon MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-17T19:01:08Z)
Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale [27.02990488317357]
不完全な専門家によるオフラインのデモンストレーションデータセットを前提として、MDPのオンライン学習パフォーマンスをブートストラップする上で、それを活用するための最善の方法は何か? Informed Posterior Sampling-based RL (iPSRL)アルゴリズムを最初に提案する。このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-20T18:16:25Z)
Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文参考訳（メタデータ） (2023-02-06T17:30:22Z)
Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文参考訳（メタデータ） (2023-01-03T23:52:16Z)
Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文参考訳（メタデータ） (2022-06-11T13:08:08Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。