論文の概要: Selective Sampling and Imitation Learning via Online Regression
- arxiv url: http://arxiv.org/abs/2307.04998v1
- Date: Tue, 11 Jul 2023 03:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 16:21:34.488541
- Title: Selective Sampling and Imitation Learning via Online Regression
- Title(参考訳): オンライン回帰による選択的サンプリングと模倣学習
- Authors: Ayush Sekhari, Karthik Sridharan, Wen Sun, Runzhe Wu
- Abstract要約: 雑音の多い専門家にフィードバックを求めることで,Imitation Learning (IL) の問題を考える。
我々は、選択的サンプリングを用いて、ノイズの多い専門家にフィードバックを積極的に問い合わせる、ILのための対話的アルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 17.73844193143454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of Imitation Learning (IL) by actively querying noisy
expert for feedback. While imitation learning has been empirically successful,
much of prior work assumes access to noiseless expert feedback which is not
practical in many applications. In fact, when one only has access to noisy
expert feedback, algorithms that rely on purely offline data (non-interactive
IL) can be shown to need a prohibitively large number of samples to be
successful. In contrast, in this work, we provide an interactive algorithm for
IL that uses selective sampling to actively query the noisy expert for
feedback. Our contributions are twofold: First, we provide a new selective
sampling algorithm that works with general function classes and multiple
actions, and obtains the best-known bounds for the regret and the number of
queries. Next, we extend this analysis to the problem of IL with noisy expert
feedback and provide a new IL algorithm that makes limited queries.
Our algorithm for selective sampling leverages function approximation, and
relies on an online regression oracle w.r.t.~the given model class to predict
actions, and to decide whether to query the expert for its label. On the
theoretical side, the regret bound of our algorithm is upper bounded by the
regret of the online regression oracle, while the query complexity additionally
depends on the eluder dimension of the model class. We complement this with a
lower bound that demonstrates that our results are tight. We extend our
selective sampling algorithm for IL with general function approximation and
provide bounds on both the regret and the number of queries made to the noisy
expert. A key novelty here is that our regret and query complexity bounds only
depend on the number of times the optimal policy (and not the noisy expert, or
the learner) go to states that have a small margin.
- Abstract(参考訳): 雑音の多い専門家にフィードバックを求めることで,Imitation Learning (IL) の問題を考える。
模倣学習は実証的に成功したが、先行研究の多くは、多くのアプリケーションでは実用的ではないノイズレス専門家のフィードバックへのアクセスを前提としている。
実際、ノイズの多い専門家のフィードバックのみにアクセスできる場合、純粋にオフラインデータ(非対話型il)に依存するアルゴリズムは、成功するためには膨大な数のサンプルを必要とすることが示される。
対照的に、本研究では、選択的サンプリングを用いて、ノイズの多い専門家にフィードバックを求めるための対話的アルゴリズムを提供する。
まず、一般的な関数クラスと複数のアクションで動作する新しい選択的サンプリングアルゴリズムを提供し、後悔とクエリの数に対して最もよく知られた境界を得る。
次に,この解析をエキスパートフィードバックによるil問題に適用し,限定的なクエリを行う新しいilアルゴリズムを提案する。
選択的サンプリングのためのアルゴリズムは関数近似を利用しており、与えられたモデルクラスが行動を予測するためにオンライン回帰オラクル w.r.t. に依存する。
理論的には、我々のアルゴリズムの後悔の束縛は、オンライン回帰オラクルの後悔によって上限されるが、クエリの複雑さは、さらにモデルクラスのeluder次元に依存する。
私たちはこれを、結果が厳密であることを示す低い境界で補完します。
一般関数近似によるilの選択的サンプリングアルゴリズムを拡張し,ノイズの少ない専門家に対して,後悔と問い合わせ数の両方に境界を与える。
ここでの重要な新規性は、我々の後悔とクエリの複雑さが、最適なポリシー(ノイズの多い専門家や学習者ではない)の回数にのみ依存していることです。
関連論文リスト
- Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Making RL with Preference-based Feedback Efficient via Randomization [11.019088464664696]
人間のフィードバックから学習する強化学習アルゴリズムは、統計複雑性、計算複雑性、クエリ複雑性の点で効率的である必要がある。
提案するアルゴリズムは, サンプル効率のよいアルゴリズム(すなわち, ほぼ最適ケースの後悔境界)と実行時間(すなわち, 関連するパラメータに関して計算複雑性が最悪の場合)を提案する。
結果をより一般的な非線形関数近似に拡張するために、トンプソンサンプリングのアイデアに触発されたモデルベースランダム化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-10-23T04:19:35Z) - Contextual Bandits and Imitation Learning via Preference-Based Active
Queries [17.73844193143454]
本研究では,学習者が実行された行動報酬の直接的な知識を欠いている文脈的包帯と模倣学習の問題を考察する。
その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。
学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。
論文 参考訳(メタデータ) (2023-07-24T16:36:04Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Differentially Private Query Release Through Adaptive Projection [19.449593001368193]
我々は,$k$-way マージンのような膨大な統計クエリに対する回答を解放するための新しいアルゴリズムを提案し,実装し,評価する。
我々のアルゴリズムは、単純な摂動を用いて、プライベートデータセット上のクエリに応答するプロジェクションメカニズムの連続緩和を適応的に利用する。
特に,プライバシ予算が小さい場合や,クエリクラスが大きい場合など,既存のアルゴリズムよりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-03-11T12:43:18Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Active Imitation Learning with Noisy Guidance [6.832341432995627]
シミュレーション学習アルゴリズムは、多くの構造化予測タスクに対して最先端の結果を提供する。
このようなアルゴリズムは、任意のクエリ状態において最適なアクションを提供する専門家へのトレーニングタイムアクセスを前提としている。
我々は,学習アルゴリズムがノイズの多いガイダンスを提供するより安価なノイズにアクセスできるような,アクティブな学習環境を考える。
論文 参考訳(メタデータ) (2020-05-26T15:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。