Fugu-MT 論文翻訳(概要): LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency

論文の概要: LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency

arxiv url: http://arxiv.org/abs/2412.21001v1
Date: Mon, 30 Dec 2024 15:10:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.799018
Title: LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency
Title（参考訳）: LEASE: サンプル効率の高いオフライン優先型強化学習
Authors: Xiao-Yin Liu, Guotao Li, Xiao-Hu Zhou, Zeng-Guang Hou,
Abstract要約: 本稿では、ラベルなしの嗜好データを生成するために、高サンプル効率(LEASE)アルゴリズムを用いたoffLine prEference-bAsed RLを提案する。事前学習した報奨モデルがラベルのないデータに対して誤ったラベルを生成する可能性があることを考慮し、報奨モデルの性能を確保するための不確実性を考慮したメカニズムを設計する。
参考スコア（独自算出の注目度）: 11.295036269748731
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline preference-based reinforcement learning (PbRL) provides an effective way to overcome the challenges of designing reward and the high costs of online interaction. However, since labeling preference needs real-time human feedback, acquiring sufficient preference labels is challenging. To solve this, this paper proposes a offLine prEference-bAsed RL with high Sample Efficiency (LEASE) algorithm, where a learned transition model is leveraged to generate unlabeled preference data. Considering the pretrained reward model may generate incorrect labels for unlabeled data, we design an uncertainty-aware mechanism to ensure the performance of reward model, where only high confidence and low variance data are selected. Moreover, we provide the generalization bound of reward model to analyze the factors influencing reward accuracy, and demonstrate that the policy learned by LEASE has theoretical improvement guarantee. The developed theory is based on state-action pair, which can be easily combined with other offline algorithms. The experimental results show that LEASE can achieve comparable performance to baseline under fewer preference data without online interaction.
Abstract（参考訳）: オフライン嗜好に基づく強化学習(PbRL)は、報酬設計の課題とオンラインインタラクションの高コストを克服する効果的な方法を提供する。しかし,ラベル付けにはリアルタイムな人的フィードバックが必要であるため,適切な好みラベルを取得することは困難である。そこで本研究では,学習した遷移モデルを利用してラベルなしの嗜好データを生成する,高いサンプル効率(LEASE)アルゴリズムを備えたoffLine prEference-bAsed RLを提案する。事前学習した報奨モデルがラベルなしデータの誤ラベルを生成する可能性があることを考慮し、高い信頼性と低分散データのみを選択する報奨モデルの性能を保証する不確実性認識機構を設計する。さらに、報酬モデルの適用範囲を一般化し、報酬精度に影響を与える要因を分析し、LEASEが学習したポリシーが理論的改善を保証することを示す。開発された理論は状態-作用対に基づいており、他のオフラインアルゴリズムと簡単に組み合わせることができる。実験の結果, LEASEは, オンラインインタラクションを伴わずに, より少ない嗜好データの下で, ベースラインに匹敵する性能を達成できることが示唆された。

関連論文リスト

Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文参考訳（メタデータ） (2025-04-07T15:27:37Z)
Navigating Towards Fairness with Data Selection [27.731128352096555]
ラベルバイアスを効率的かつ柔軟に緩和するデータ選択法を提案する。提案手法では,ゼロショット予測器をプロキシモデルとして利用し,クリーンなホールトアウトセットでのトレーニングをシミュレートする。我々のモダリティ非依存手法は,実験評価において,ラベルバイアスの処理と多種多様なデータセット間の公正性向上に効果的かつ効果的であることが証明された。
論文参考訳（メタデータ） (2024-12-15T06:11:05Z)
In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。 DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文参考訳（メタデータ） (2024-12-12T09:35:47Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。以上の結果から,PbMARLの多面的アプローチが示唆された。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。 VPOは、報酬関数の最大値推定を対応する値関数で正規化する。テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文参考訳（メタデータ） (2024-05-29T17:51:42Z)
$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文参考訳（メタデータ） (2024-05-24T05:42:11Z)
Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2023-09-05T11:49:33Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。 DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。 MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文参考訳（メタデータ） (2020-04-21T20:00:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。