論文の概要: Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling
- arxiv url: http://arxiv.org/abs/2405.11204v1
- Date: Sat, 18 May 2024 07:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:57:45.858333
- Title: Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling
- Title(参考訳): 不完全な人間のフィードバックから学ぶ:破壊・破壊デュエルの物語
- Authors: Yuwei Cheng, Fan Yao, Xuefeng Liu, Haifeng Xu,
- Abstract要約: 本稿では,人間の非合理性や真の嗜好に対する不完全知覚に動機づけられた,不完全フィードバックからの学習について考察する。
我々は,従来のデュエル・バンディット問題を,比較フィードバックから学習するモデルとして再考し,人間のフィードバックの不完全性をユーザユーティリティの腐敗として活用することにより,それを強化する。
勾配に基づくアルゴリズムは, 学習率を変化させることで, 汚損下でのスムーズな効率と損耗のトレードオフを享受できることを示す。
- 参考スコア(独自算出の注目度): 35.54611331654877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies Learning from Imperfect Human Feedback (LIHF), motivated by humans' potential irrationality or imperfect perception of true preference. We revisit the classic dueling bandit problem as a model of learning from comparative human feedback, and enrich it by casting the imperfection in human feedback as agnostic corruption to user utilities. We start by identifying the fundamental limits of LIHF and prove a regret lower bound of $\Omega(\max\{T^{1/2},C\})$, even when the total corruption $C$ is known and when the corruption decays gracefully over time (i.e., user feedback becomes increasingly more accurate). We then turn to design robust algorithms applicable in real-world scenarios with arbitrary corruption and unknown $C$. Our key finding is that gradient-based algorithms enjoy a smooth efficiency-robustness tradeoff under corruption by varying their learning rates. Specifically, under general concave user utility, Dueling Bandit Gradient Descent (DBGD) of Yue and Joachims (2009) can be tuned to achieve regret $O(T^{1-\alpha} + T^{ \alpha} C)$ for any given parameter $\alpha \in (0, \frac{1}{4}]$. Additionally, this result enables us to pin down the regret lower bound of the standard DBGD (the $\alpha=1/4$ case) as $\Omega(T^{3/4})$ for the first time, to the best of our knowledge. For strongly concave user utility we show a better tradeoff: there is an algorithm that achieves $O(T^{\alpha} + T^{\frac{1}{2}(1-\alpha)}C)$ for any given $\alpha \in [\frac{1}{2},1)$. Our theoretical insights are corroborated by extensive experiments on real-world recommendation data.
- Abstract(参考訳): 本稿では,人間の非合理性や真の嗜好に対する不完全知覚に動機づけられた,不完全フィードバックからの学習について考察する。
我々は,従来のデュエル・バンディット問題を,比較フィードバックから学習するモデルとして再考し,ユーザユーティリティに非依存的な汚職として,人間のフィードバックの不完全性をキャストすることによってそれを強化する。
まず、LIHFの基本的な限界を特定して、全汚職$C$が分かっていて、汚職が時間とともに適切に崩壊した場合(すなわち、ユーザのフィードバックがますます正確になる)に、後悔の少ない$\Omega(\max\{T^{1/2},C\})$を証明することから始める。
次に、任意の汚職と未知の$C$で現実世界のシナリオに適用可能なロバストなアルゴリズムを設計する。
私たちの重要な発見は、勾配に基づくアルゴリズムが、学習率を変化させることで、汚職下でのスムーズな効率と損益のトレードオフを享受していることです。
具体的には、一般的な凹凸ユーザユーティリティの下では、Yue と Joachims (2009) の Duling Bandit Gradient Descent (DBGD) は、任意のパラメータ $\alpha \in (0, \frac{1}{4}]$ に対して、後悔の$O(T^{1-\alpha} + T^{ \alpha} C)$ を達成するように調整することができる。
さらに、この結果により、標準DBGD ($\alpha=1/4$ case) の残念な下限を、初めて $\Omega(T^{3/4})$として、私たちの知識を最大限に活用することができる。
O(T^{\alpha} + T^{\frac{1}{2}(1-\alpha)}C)$を与えられた任意の$\alpha \in [\frac{1}{2},1)$に対して達成するアルゴリズムがある。
我々の理論的洞察は、実世界のレコメンデーションデータに関する広範な実験によって裏付けられている。
関連論文リスト
- Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Minimax Rates for Robust Community Detection [19.229475414802213]
逆ノードの破損を伴うブロックモデルにおけるコミュニティ検出の問題点について検討する。
我々の主な結果は、$epsilon$-fraction of corruption and unbounded error $O(epsilon) + e-fracC2 (1 pm o(1))$ where $C = (sqrta - sqrtb)2$ is the signal-to-noise ratio。
アルゴリズムがさらに機能するという意味では、我々のアルゴリズムは2倍に損なわれていることを示す。
論文 参考訳(メタデータ) (2022-07-25T04:45:16Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Corruption-Robust Offline Reinforcement Learning [19.300465320692066]
オフライン強化学習における対向的堅牢性について検討する。
最悪な$Omega(デプシロン)最適性ギャップは避けられないことを示す。
本稿では,Last-Square Value Iteration (LSVI)アルゴリズムのロバストな変種を提案する。
論文 参考訳(メタデータ) (2021-06-11T22:41:53Z) - Robust Policy Gradient against Strong Data Corruption [30.910088777897045]
対人汚職下での堅牢な強化学習の課題を報酬と移行の両面から検討する。
攻撃モデルでは、エピソード内の各ステップで報酬と移行を任意に破壊できるテクティタダプティブな敵を仮定する。
我々はフィルタポリシグラディエントアルゴリズムを開発し、汚職に対する報酬を許容し、$O(epsilon1/4)$-optimal Policy を見つけることができる。
論文 参考訳(メタデータ) (2021-02-11T01:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。