論文の概要: Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling
- arxiv url: http://arxiv.org/abs/2405.11204v1
- Date: Sat, 18 May 2024 07:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:57:45.858333
- Title: Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling
- Title(参考訳): 不完全な人間のフィードバックから学ぶ:破壊・破壊デュエルの物語
- Authors: Yuwei Cheng, Fan Yao, Xuefeng Liu, Haifeng Xu,
- Abstract要約: 本稿では,人間の非合理性や真の嗜好に対する不完全知覚に動機づけられた,不完全フィードバックからの学習について考察する。
我々は,従来のデュエル・バンディット問題を,比較フィードバックから学習するモデルとして再考し,人間のフィードバックの不完全性をユーザユーティリティの腐敗として活用することにより,それを強化する。
勾配に基づくアルゴリズムは, 学習率を変化させることで, 汚損下でのスムーズな効率と損耗のトレードオフを享受できることを示す。
- 参考スコア(独自算出の注目度): 35.54611331654877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies Learning from Imperfect Human Feedback (LIHF), motivated by humans' potential irrationality or imperfect perception of true preference. We revisit the classic dueling bandit problem as a model of learning from comparative human feedback, and enrich it by casting the imperfection in human feedback as agnostic corruption to user utilities. We start by identifying the fundamental limits of LIHF and prove a regret lower bound of $\Omega(\max\{T^{1/2},C\})$, even when the total corruption $C$ is known and when the corruption decays gracefully over time (i.e., user feedback becomes increasingly more accurate). We then turn to design robust algorithms applicable in real-world scenarios with arbitrary corruption and unknown $C$. Our key finding is that gradient-based algorithms enjoy a smooth efficiency-robustness tradeoff under corruption by varying their learning rates. Specifically, under general concave user utility, Dueling Bandit Gradient Descent (DBGD) of Yue and Joachims (2009) can be tuned to achieve regret $O(T^{1-\alpha} + T^{ \alpha} C)$ for any given parameter $\alpha \in (0, \frac{1}{4}]$. Additionally, this result enables us to pin down the regret lower bound of the standard DBGD (the $\alpha=1/4$ case) as $\Omega(T^{3/4})$ for the first time, to the best of our knowledge. For strongly concave user utility we show a better tradeoff: there is an algorithm that achieves $O(T^{\alpha} + T^{\frac{1}{2}(1-\alpha)}C)$ for any given $\alpha \in [\frac{1}{2},1)$. Our theoretical insights are corroborated by extensive experiments on real-world recommendation data.
- Abstract(参考訳): 本稿では,人間の非合理性や真の嗜好に対する不完全知覚に動機づけられた,不完全フィードバックからの学習について考察する。
我々は,従来のデュエル・バンディット問題を,比較フィードバックから学習するモデルとして再考し,ユーザユーティリティに非依存的な汚職として,人間のフィードバックの不完全性をキャストすることによってそれを強化する。
まず、LIHFの基本的な限界を特定して、全汚職$C$が分かっていて、汚職が時間とともに適切に崩壊した場合(すなわち、ユーザのフィードバックがますます正確になる)に、後悔の少ない$\Omega(\max\{T^{1/2},C\})$を証明することから始める。
次に、任意の汚職と未知の$C$で現実世界のシナリオに適用可能なロバストなアルゴリズムを設計する。
私たちの重要な発見は、勾配に基づくアルゴリズムが、学習率を変化させることで、汚職下でのスムーズな効率と損益のトレードオフを享受していることです。
具体的には、一般的な凹凸ユーザユーティリティの下では、Yue と Joachims (2009) の Duling Bandit Gradient Descent (DBGD) は、任意のパラメータ $\alpha \in (0, \frac{1}{4}]$ に対して、後悔の$O(T^{1-\alpha} + T^{ \alpha} C)$ を達成するように調整することができる。
さらに、この結果により、標準DBGD ($\alpha=1/4$ case) の残念な下限を、初めて $\Omega(T^{3/4})$として、私たちの知識を最大限に活用することができる。
O(T^{\alpha} + T^{\frac{1}{2}(1-\alpha)}C)$を与えられた任意の$\alpha \in [\frac{1}{2},1)$に対して達成するアルゴリズムがある。
我々の理論的洞察は、実世界のレコメンデーションデータに関する広範な実験によって裏付けられている。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - On Optimal Robustness to Adversarial Corruption in Online Decision
Problems [27.68461396741871]
最適ロバスト性は汚損量に対する平方根依存性によって表現できることを示す。
多武装バンディット問題に対しては、対数係数までほぼ狭い下界も提供する。
論文 参考訳(メタデータ) (2021-09-22T18:26:45Z) - Improved Corruption Robust Algorithms for Episodic Reinforcement
Learning [43.279169081740726]
基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。
既存の結果と比較して、総汚職の点で厳密により良い後悔の境界を達成する新しいアルゴリズムを提案します。
その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
論文 参考訳(メタデータ) (2021-02-13T07:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。