論文の概要: On Efficient Online Imitation Learning via Classification
- arxiv url: http://arxiv.org/abs/2209.12868v1
- Date: Mon, 26 Sep 2022 17:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:58:29.129045
- Title: On Efficient Online Imitation Learning via Classification
- Title(参考訳): 分類によるオンライン模倣学習の効率化について
- Authors: Yichen Li, Chicheng Zhang
- Abstract要約: 分類に基づくオンライン模倣学習($textbfCOIL$)と、オラクル効率の良い後悔最小化アルゴリズムを設計するための基本的な可能性について検討する。
私たちの研究は、分類に基づくオンライン模倣学習を、重要なILセットアップとして、しっかりとした基礎に置きます。
- 参考スコア(独自算出の注目度): 17.416831207557603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) is a general learning paradigm for tackling
sequential decision-making problems. Interactive imitation learning, where
learners can interactively query for expert demonstrations, has been shown to
achieve provably superior sample efficiency guarantees compared with its
offline counterpart or reinforcement learning. In this work, we study
classification-based online imitation learning (abbrev. $\textbf{COIL}$) and
the fundamental feasibility to design oracle-efficient regret-minimization
algorithms in this setting, with a focus on the general nonrealizable case. We
make the following contributions: (1) we show that in the $\textbf{COIL}$
problem, any proper online learning algorithm cannot guarantee a sublinear
regret in general; (2) we propose $\textbf{Logger}$, an improper online
learning algorithmic framework, that reduces $\textbf{COIL}$ to online linear
optimization, by utilizing a new definition of mixed policy class; (3) we
design two oracle-efficient algorithms within the $\textbf{Logger}$ framework
that enjoy different sample and interaction round complexity tradeoffs, and
conduct finite-sample analyses to show their improvements over naive behavior
cloning; (4) we show that under the standard complexity-theoretic assumptions,
efficient dynamic regret minimization is infeasible in the $\textbf{Logger}$
framework. Our work puts classification-based online imitation learning, an
important IL setup, into a firmer foundation.
- Abstract(参考訳): 模倣学習(il)は、逐次的な意思決定問題に取り組むための一般的な学習パラダイムである。
対話型模倣学習では、専門家によるデモンストレーションを対話的にクエリできるが、オフラインの学習や強化学習に比べて、サンプル効率の保証が著しく優れていることが示されている。
本研究では,分類に基づくオンライン模倣学習(abbrev。
この設定でoracle効率のよい後悔最小化アルゴリズムを設計するための基本的な実現可能性と$\textbf{coil}$)。
We make the following contributions: (1) we show that in the $\textbf{COIL}$ problem, any proper online learning algorithm cannot guarantee a sublinear regret in general; (2) we propose $\textbf{Logger}$, an improper online learning algorithmic framework, that reduces $\textbf{COIL}$ to online linear optimization, by utilizing a new definition of mixed policy class; (3) we design two oracle-efficient algorithms within the $\textbf{Logger}$ framework that enjoy different sample and interaction round complexity tradeoffs, and conduct finite-sample analyses to show their improvements over naive behavior cloning; (4) we show that under the standard complexity-theoretic assumptions, efficient dynamic regret minimization is infeasible in the $\textbf{Logger}$ framework.
われわれの研究は、重要なil設定である分類ベースのオンライン模倣学習を、より強固な基盤に位置づけている。
関連論文リスト
- Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning for Spatial Branching: An Algorithm Selection Approach [0.0]
本研究では,非線形最適化問題の文脈で分岐学習フレームワークを開発し,その有効性を示す。
提案した学習は、インスタンス固有の機能に基づいてオフラインで実行され、新しいインスタンスを解く際の計算オーバーヘッドがない。
異なるベンチマークインスタンスの実験では、学習ベースの分岐ルールが標準ルールを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2022-04-22T17:23:43Z) - PDE-Based Optimal Strategy for Unconstrained Online Learning [40.61498562988079]
部分微分方程式(PDE)を解くことによって時間変化ポテンシャル関数を生成するフレームワークを提案する。
我々のフレームワークは、いくつかの古典的なポテンシャルを回復し、より重要なことは、新しいものを設計するための体系的なアプローチを提供する。
これは最適なリード定数を持つ最初のパラメータフリーアルゴリズムである。
論文 参考訳(メタデータ) (2022-01-19T22:21:21Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Online Passive-Aggressive Total-Error-Rate Minimization [1.370633147306388]
オンライン・パッシブ・アグレッシブ・ラーニング(PA)と総エラーレート最小化(TER)を二項分類に活用する新しいオンライン・ラーニング・アルゴリズムを提案する。
実験結果から,提案したPATERアルゴリズムは,実世界のデータセットにおける既存の最先端オンライン学習アルゴリズムよりも,効率と効率の面で優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-02-05T13:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。