論文の概要: Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling
- arxiv url: http://arxiv.org/abs/2405.11204v2
- Date: Mon, 14 Oct 2024 21:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:31.638850
- Title: Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling
- Title(参考訳): 不完全な人間のフィードバックから学ぶ:破壊・破壊デュエルの物語
- Authors: Yuwei Cheng, Fan Yao, Xuefeng Liu, Haifeng Xu,
- Abstract要約: 本稿では,不完全フィードバック(LIHF)からの学習について検討し,人間からのフィードバックから学習する際の不合理性や不完全知覚に対処する。
人類の不完全性が時間の経過とともに崩壊する証拠(つまり、人間が改善を学習する)に基づいて、我々はこの問題を包括的不完全性(concave-utility)と連続的な作用(concve-action dueling bandit)として論じるが、限定的な腐敗形態で論じる。
本稿では,この枠組みが,他の勾配型デュエルバンドアルゴリズムの汚損保証を得るためにどのように容易に適用できるかを示す。
- 参考スコア(独自算出の注目度): 35.54611331654877
- License:
- Abstract: This paper studies Learning from Imperfect Human Feedback (LIHF), addressing the potential irrationality or imperfect perception when learning from comparative human feedback. Building on evidences that human's imperfection decays over time (i.e., humans learn to improve), we cast this problem as a concave-utility continuous-action dueling bandit but under a restricted form of corruption: i.e., the corruption scale is decaying over time as $t^{\rho-1}$ for some "imperfection rate" $\rho \in [0, 1]$. With $T$ as the total number of iterations, we establish a regret lower bound of $ \Omega(\max\{\sqrt{T}, T^{\rho}\}) $ for LIHF, even when $\rho$ is known. For the same setting, we develop the Robustified Stochastic Mirror Descent for Imperfect Dueling (RoSMID) algorithm, which achieves nearly optimal regret $\tilde{\mathcal{O}}(\max\{\sqrt{T}, T^{\rho}\})$. Core to our analysis is a novel framework for analyzing gradient-based algorithms for dueling bandit under corruption, and we demonstrate its general applicability by showing how this framework can be easily applied to obtain corruption-robust guarantees for other popular gradient-based dueling bandit algorithms. Our theoretical results are validated by extensive experiments.
- Abstract(参考訳): 本稿では,不完全フィードバック(LIHF)からの学習について検討し,人間からのフィードバックから学習する際の不合理性や不完全知覚に対処する。
人類の不完全性が時間の経過とともに崩壊する証拠(つまり、人間が改善するために学習する)に基づいて、我々はこの問題を包括的実用性のある連続的な行動デュエルバンディット(英語版)として論じるが、汚職の制限された形態で、例えば、ある「不完全性率」$\rho \in [0, 1]$に対して、腐敗スケールは時間の経過とともに$t^{\rho-1}$として崩壊している。
合計の反復数として$T$を用いると、$\rho$が知られている場合でも、 LIHF に対して $ Omega (\max\{\sqrt{T}, T^{\rho}\}) $ の後悔の低い境界を確立する。
また,RoSMID(Roustified Stochastic Mirror Descent for Imperfect Dueling)アルゴリズムを開発し,ほぼ最適に再帰する$\tilde{\mathcal{O}}(\max\{\sqrt{T}, T^{\rho}\})$とする。
我々の分析の核となるのは, ダウリング・バンディット・アルゴリズムを汚職下で解析するための新しいフレームワークであり, 一般的なダウリング・バンディット・アルゴリズムに対して, この枠組みをいかに簡単に適用できるかを示すことによって, 一般的な適用性を示すものである。
我々の理論結果は広範な実験によって検証される。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - On Optimal Robustness to Adversarial Corruption in Online Decision
Problems [27.68461396741871]
最適ロバスト性は汚損量に対する平方根依存性によって表現できることを示す。
多武装バンディット問題に対しては、対数係数までほぼ狭い下界も提供する。
論文 参考訳(メタデータ) (2021-09-22T18:26:45Z) - Improved Corruption Robust Algorithms for Episodic Reinforcement
Learning [43.279169081740726]
基礎システムの報酬と遷移確率の両方において,未知の敵的腐敗下でのエピソディック強化学習について検討した。
既存の結果と比較して、総汚職の点で厳密により良い後悔の境界を達成する新しいアルゴリズムを提案します。
その結果、汚職防止政策のメタアルゴリズムとプラグインフリーのサブアルゴリズムを組み合わせた一般的なアルゴリズムフレームワークが得られた。
論文 参考訳(メタデータ) (2021-02-13T07:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。