論文の概要: Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple Options
- arxiv url: http://arxiv.org/abs/2510.18713v1
- Date: Tue, 21 Oct 2025 15:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.751205
- Title: Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple Options
- Title(参考訳): ペアワイズ比較を超えた嗜好に基づく強化学習:複数選択肢のメリット
- Authors: Joongkyu Lee, Seouh-won Yi, Min-hwan Oh,
- Abstract要約: オンライン嗜好に基づく強化学習(PbRL)を,サンプル効率の向上を目的として検討した。
本稿では,提案するサブセット内の平均不確実性を最大化し,複数の動作を選択するアルゴリズムであるM-AUPOを提案する。
M-AUPO が $tildemathcalOleft( fracdT sqrt sum_t=1T frac1|S_t| right)$ の準最適ギャップを達成できることを証明する。
- 参考スコア(独自算出の注目度): 35.41703011973504
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study online preference-based reinforcement learning (PbRL) with the goal of improving sample efficiency. While a growing body of theoretical work has emerged-motivated by PbRL's recent empirical success, particularly in aligning large language models (LLMs)-most existing studies focus only on pairwise comparisons. A few recent works (Zhu et al., 2023, Mukherjee et al., 2024, Thekumparampil et al., 2024) have explored using multiple comparisons and ranking feedback, but their performance guarantees fail to improve-and can even deteriorate-as the feedback length increases, despite the richer information available. To address this gap, we adopt the Plackett-Luce (PL) model for ranking feedback over action subsets and propose M-AUPO, an algorithm that selects multiple actions by maximizing the average uncertainty within the offered subset. We prove that M-AUPO achieves a suboptimality gap of $\tilde{\mathcal{O}}\left( \frac{d}{T} \sqrt{ \sum_{t=1}^T \frac{1}{|S_t|}} \right)$, where $T$ is the total number of rounds, $d$ is the feature dimension, and $|S_t|$ is the size of the subset at round $t$. This result shows that larger subsets directly lead to improved performance and, notably, the bound avoids the exponential dependence on the unknown parameter's norm, which was a fundamental limitation in most previous works. Moreover, we establish a near-matching lower bound of $\Omega \left( \frac{d}{K \sqrt{T}} \right)$, where $K$ is the maximum subset size. To the best of our knowledge, this is the first theoretical result in PbRL with ranking feedback that explicitly shows improved sample efficiency as a function of the subset size.
- Abstract(参考訳): オンライン嗜好に基づく強化学習(PbRL)を,サンプル効率の向上を目的として検討した。
PbRLの最近の経験的成功、特に大規模言語モデル(LLM)の整合性によって、理論的な研究が発展しつつある一方で、既存の研究はペア比較のみに焦点を当てている。
いくつかの最近の研究(Zhu et al , 2023, Mukherjee et al , 2024, Thekumparampil et al , 2024)では、複数の比較とランク付けフィードバックを用いて検討されているが、それらの性能保証は改善されず、豊富な情報があるにもかかわらずフィードバック長が増加するにつれて、さらに悪化する可能性がある。
このギャップに対処するために、アクションサブセットよりもフィードバックをランク付けするためのPlackett-Luce(PL)モデルを採用し、提案するサブセット内の平均不確実性を最大化して複数のアクションを選択するアルゴリズムであるM-AUPOを提案する。
M-AUPO が $\tilde{\mathcal{O}}\left( \frac{d}{T} \sqrt{ \sum_{t=1}^T \frac{1}{|S_t|}} \right)$ であることを示す。
この結果は、より大きな部分集合が直接的に性能を向上させることを示し、特にその境界は未知のパラメータのノルムへの指数的依存を回避している。
さらに、ほぼ一致する$\Omega \left( \frac{d}{K \sqrt{T}} \right)$という下界を確立し、$K$は最大部分集合サイズである。
我々の知る限りでは、これはPbRLにおける最初の理論的結果であり、サブセットサイズの関数としてのサンプル効率の向上を明示的に示すランキングフィードバックである。
関連論文リスト
- Gap-Dependent Bounds for Nearly Minimax Optimal Reinforcement Learning with Linear Function Approximation [13.370933509246568]
ほぼ最小のアルゴリズムLSVI-UCB++に対して、最初のギャップ依存の後悔境界を提供する。
我々の分析では、以前のギャップ依存の結果と比較して、$d$と$H$の両方の依存性が改善されている。
論文 参考訳(メタデータ) (2026-02-23T19:25:46Z) - Prior-Aligned Meta-RL: Thompson Sampling with Learned Priors and Guarantees in Finite-Horizon MDPs [0.0]
本研究では,有限水平MDPにおけるメタ強化学習について検討する。
この結果から,学習Q-プライヤを用いたトンプソン型RLのメタレグレット保証が得られた。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Fair Submodular Cover [18.37610521373708]
フェア・サブモジュラー被覆 (FSC) の研究は、与えられた基底集合$U$, 単調部分モジュラー関数 $f:2UtomathbbR_ge 0$, しきい値$tau$ が与えられる。
まず、二項近似比を$(frac1epsilon, 1-O(epsilon))$とするFSCの離散アルゴリズムを導入する。
次に、$(frac1epsilon, 1-O(epsilon))$-を達成する連続アルゴリズムを示す。
論文 参考訳(メタデータ) (2024-07-05T18:37:09Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Robust Subset Selection by Greedy and Evolutionary Pareto Optimization [23.0838604893412]
サブセット選択は、ある目的関数を最大化するために、グラウンドセットからサブセットを選択することを目的としている。
グリーディアルゴリズムは1-e-betagamma$の近似比を得ることができ、$beta$と$gamma$は対象関数の相関と部分モジュラリティ比である。
論文 参考訳(メタデータ) (2022-05-03T11:00:54Z) - The Power of Subsampling in Submodular Maximization [51.629656762796564]
このアプローチは,既存の手法よりもはるかに単純であるにもかかわらず,最適/最先端の結果をもたらすことを示す。
我々は,映像要約,位置情報要約,映画推薦タスクにおけるアルゴリズムの有効性を実証的に示す。
論文 参考訳(メタデータ) (2021-04-06T20:25:57Z) - An Exponential Lower Bound for Linearly-Realizable MDPs with Constant
Suboptimality Gap [66.75488143823337]
また, 指数的標本複雑度は, 一定の準最適ギャップを仮定しても, 未だに保持していることを示した。
おそらく驚くことに、これはオンラインrl設定と生成モデル設定の指数関数的な分離を意味する。
論文 参考訳(メタデータ) (2021-03-23T17:05:54Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。