論文の概要: Contextual Bandits and Imitation Learning via Preference-Based Active
Queries
- arxiv url: http://arxiv.org/abs/2307.12926v1
- Date: Mon, 24 Jul 2023 16:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:32:41.046263
- Title: Contextual Bandits and Imitation Learning via Preference-Based Active
Queries
- Title(参考訳): 優先型アクティブクエリによる文脈帯域と模倣学習
- Authors: Ayush Sekhari, Karthik Sridharan, Wen Sun, Runzhe Wu
- Abstract要約: 本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
- 参考スコア(独自算出の注目度): 17.73844193143454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of contextual bandits and imitation learning, where
the learner lacks direct knowledge of the executed action's reward. Instead,
the learner can actively query an expert at each round to compare two actions
and receive noisy preference feedback. The learner's objective is two-fold: to
minimize the regret associated with the executed actions, while simultaneously,
minimizing the number of comparison queries made to the expert. In this paper,
we assume that the learner has access to a function class that can represent
the expert's preference model under appropriate link functions, and provide an
algorithm that leverages an online regression oracle with respect to this
function class for choosing its actions and deciding when to query. For the
contextual bandit setting, our algorithm achieves a regret bound that combines
the best of both worlds, scaling as $O(\min\{\sqrt{T}, d/\Delta\})$, where $T$
represents the number of interactions, $d$ represents the eluder dimension of
the function class, and $\Delta$ represents the minimum preference of the
optimal action over any suboptimal action under all contexts. Our algorithm
does not require the knowledge of $\Delta$, and the obtained regret bound is
comparable to what can be achieved in the standard contextual bandits setting
where the learner observes reward signals at each round. Additionally, our
algorithm makes only $O(\min\{T, d^2/\Delta^2\})$ queries to the expert. We
then extend our algorithm to the imitation learning setting, where the learning
agent engages with an unknown environment in episodes of length $H$ each, and
provide similar guarantees for regret and query complexity. Interestingly, our
algorithm for imitation learning can even learn to outperform the underlying
expert, when it is suboptimal, highlighting a practical benefit of
preference-based feedback in imitation learning.
- Abstract(参考訳): 学習者が実行された行動の報酬に関する直接的な知識を欠く文脈的バンディットと模倣学習の問題を考える。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
本稿では、学習者が適切なリンク関数の下で専門家の選好モデルを表現することができる関数クラスにアクセスし、そのアクションを選択し、いつ問い合わせるかを決定するために、この関数クラスに関してオンライン回帰オラクルを利用するアルゴリズムを提供する。
文脈的バンディット設定では、このアルゴリズムは両世界のベストを合わせた後悔の限界を達成し、$o(\min\{\sqrt{t}, d/\delta\})$、ただし$t$ は相互作用の数を表し、$d$ は関数クラスのeluder次元を表し、$\delta$ はすべてのコンテキストにおける任意の最適アクションに対する最適なアクションの最小の好みを表す。
我々のアルゴリズムは$\Delta$の知識を必要とせず、得られた後悔境界は、学習者が各ラウンドで報酬信号を観測する標準的な文脈的帯域設定で達成できるものに匹敵する。
さらに、このアルゴリズムは専門家に$o(\min\{t, d^2/\delta^2\})$クエリしか行わない。
次に,アルゴリズムを模倣学習環境に拡張し,学習エージェントが未知の環境をそれぞれ長さ$H$のエピソードで処理し,後悔やクエリの複雑さを保証します。
面白いことに、模倣学習のアルゴリズムは、擬似学習における嗜好に基づくフィードバックの実践的な利点を強調して、その基礎となる専門家を上回ることを学べる。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Online Learning in Contextual Second-Price Pay-Per-Click Auctions [47.06746975822902]
オンライン学習は、クリック単価のオークションで学習し、そこでは、各ラウンドのT$で、学習者がいくつかのコンテキストと広告を受信する。
学習者のゴールは、彼女の後悔を最小限に抑えることであり、それは彼女の総収入と託宣戦略のギャップとして定義される。
論文 参考訳(メタデータ) (2023-10-08T07:04:22Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Teaching an Active Learner with Contrastive Examples [35.926575235046634]
本研究では,学習者が補助的な教師によって支援される追加のツイストを用いて,能動的学習の課題について検討する。
比較例を適応的に選択する効率的な学習アルゴリズムについて検討する。
2つの問題依存パラメータに基づいてアルゴリズムの性能保証を行う。
論文 参考訳(メタデータ) (2021-10-28T05:00:55Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Active Learning for Contextual Search with Binary Feedbacks [2.6424064030995957]
第一価格オークションなどの応用によって動機付けられた文脈探索における学習問題について検討する。
本稿では,三分探索手法とマージンに基づく能動学習手法を併用した三分探索手法を提案する。
論文 参考訳(メタデータ) (2021-10-03T19:05:29Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。