論文の概要: Efficient Preference-Based Reinforcement Learning: Randomized Exploration Meets Experimental Design
- arxiv url: http://arxiv.org/abs/2506.09508v1
- Date: Wed, 11 Jun 2025 08:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.75162
- Title: Efficient Preference-Based Reinforcement Learning: Randomized Exploration Meets Experimental Design
- Title(参考訳): 効率的推論に基づく強化学習:ランダム化探索と実験設計
- Authors: Andreas Schlaginhaufen, Reda Ouhamma, Maryam Kamgarpour,
- Abstract要約: マルコフ決定過程における人間のフィードバックからの強化学習について検討する。
中心的な課題は、基礎となる報酬を特定するために、情報的嗜好クエリを選択するアルゴリズムを設計することである。
本稿では,ランダム化探索に基づくメタアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.313040194648828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning from human feedback in general Markov decision processes, where agents learn from trajectory-level preference comparisons. A central challenge in this setting is to design algorithms that select informative preference queries to identify the underlying reward while ensuring theoretical guarantees. We propose a meta-algorithm based on randomized exploration, which avoids the computational challenges associated with optimistic approaches and remains tractable. We establish both regret and last-iterate guarantees under mild reinforcement learning oracle assumptions. To improve query complexity, we introduce and analyze an improved algorithm that collects batches of trajectory pairs and applies optimal experimental design to select informative comparison queries. The batch structure also enables parallelization of preference queries, which is relevant in practical deployment as feedback can be gathered concurrently. Empirical evaluation confirms that the proposed method is competitive with reward-based reinforcement learning while requiring a small number of preference queries.
- Abstract(参考訳): 我々は,人からのフィードバックから強化学習を一般のマルコフ決定プロセスで研究し,エージェントは軌道レベルの選好比較から学習する。
この設定における中心的な課題は、理論的保証を確保しつつ、基礎となる報酬を特定するための情報的嗜好クエリを選択するアルゴリズムを設計することである。
本稿では,ランダム化探索に基づくメタアルゴリズムを提案する。
軽度の強化学習オラクル仮定の下で、後悔と最後の保証を共に確立する。
クエリの複雑さを改善するために,トラジェクトリペアのバッチを収集する改良アルゴリズムを導入・解析し,情報比較クエリの選択に最適な実験設計を適用する。
バッチ構造は、フィードバックを同時に収集できるため、実践的なデプロイメントに関係のある、好みクエリの並列化も可能にします。
実験により,提案手法は,少数の嗜好クエリを必要としながら,報酬に基づく強化学習と競合することを確認した。
関連論文リスト
- TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Learning-Rate-Free Stochastic Optimization over Riemannian Manifolds [1.6385815610837167]
そこで本研究では,リーマン数に対する最適化のための革新的な学習速度自由アルゴリズムを提案する。
我々は、決定論的設定において最もよく知られた最適調整率と比較して、対数的要因まで最適である高い確率収束を保証する。
提案手法は数値実験によって検証され,学習速度依存アルゴリズムに対する競合性能が実証された。
論文 参考訳(メタデータ) (2024-06-04T13:17:24Z) - Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection [0.0]
並列コンピューティングにおいてよく使われる「分割と征服」フレームワークを,相関に基づくクラスタリングのステップを追加して修正する。
この一見単純な修正は、広く使われている大規模R&Sプロシージャの効率的なクラスに対して最適なサンプル複雑性の低減を実現する。
ニューラルネットワーク探索のような大規模AIアプリケーションでは,本手法は優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Outlier Detection Ensemble with Embedded Feature Selection [42.8338013000469]
組込み特徴選択(ODEFS)を用いた外乱検出アンサンブルフレームワークを提案する。
各ランダムなサブサンプリングベースの学習コンポーネントに対して、ODEFSは、特徴選択と外れ値検出をペアのランキング式に統一する。
我々は、特徴選択と例選択を同時に最適化するために閾値付き自己評価学習を採用する。
論文 参考訳(メタデータ) (2020-01-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。