論文の概要: Of Moments and Matching: Trade-offs and Treatments in Imitation Learning
- arxiv url: http://arxiv.org/abs/2103.03236v1
- Date: Thu, 4 Mar 2021 18:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:04:06.324328
- Title: Of Moments and Matching: Trade-offs and Treatments in Imitation Learning
- Title(参考訳): モーメントとマッチング:模倣学習におけるトレードオフと治療
- Authors: Gokul Swamy, Sanjiban Choudhury, Zhiwei Steven Wu, J. Andrew Bagnell
- Abstract要約: 我々は、モーメントマッチングのレンズを通して、過去の模倣学習アルゴリズムの大規模なファミリの統一ビューを提供する。
学習者と専門家の行動の相違を考慮することで、政策パフォーマンスの限界を導出することができる。
AdVILとAdRILという2つの新しいアルゴリズムテンプレートを、強力な保証、シンプルな実装、競争力のある実証的パフォーマンスで導出します。
- 参考スコア(独自算出の注目度): 26.121994149869767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a unifying view of a large family of previous imitation learning
algorithms through the lens of moment matching. At its core, our classification
scheme is based on whether the learner attempts to match (1) reward or (2)
action-value moments of the expert's behavior, with each option leading to
differing algorithmic approaches. By considering adversarially chosen
divergences between learner and expert behavior, we are able to derive bounds
on policy performance that apply for all algorithms in each of these classes,
the first to our knowledge. We also introduce the notion of recoverability,
implicit in many previous analyses of imitation learning, which allows us to
cleanly delineate how well each algorithmic family is able to mitigate
compounding errors. We derive two novel algorithm templates, AdVIL and AdRIL,
with strong guarantees, simple implementation, and competitive empirical
performance.
- Abstract(参考訳): 我々は、モーメントマッチングのレンズを通して、過去の模倣学習アルゴリズムの大規模なファミリの統一ビューを提供する。
その中心となる分類法は,(1)報奨と(2)専門家の行動の行動価値モーメントを一致させようとする学習者かに基づいており,それぞれの選択肢によって異なるアルゴリズム的アプローチが導かれる。
学習者と専門家の行動の反対に選択された分岐を考慮することによって、私たちはこれらのクラスのすべてのアルゴリズムに適用する政策パフォーマンスの境界を導き出すことができます。
また,従来の模擬学習において暗黙的な復元可能性の概念を導入し,各アルゴリズムファミリーが複合的誤りを軽減できるかを明確化することができる。
AdVILとAdRILという2つの新しいアルゴリズムテンプレートを、強力な保証、シンプルな実装、競争力のある実証的パフォーマンスで導出します。
関連論文リスト
- Predictor-Rejector Multi-Class Abstention: Theoretical Analysis and
Algorithms [34.154253063812625]
マルチクラス分類設定において,留意を伴う学習の鍵となる枠組みについて検討する。
この設定では、学習者は事前に定義されたコストで予測をしないことを選択できる。
我々は、強い非漸近的および仮説的整合性を保証するために、いくつかの新しい代理損失の族を導入する。
論文 参考訳(メタデータ) (2023-10-23T10:16:27Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Multi-Task Learning with Prior Information [5.770309971945476]
本稿では,機能間の関係に関する事前知識を利用するマルチタスク学習フレームワークを提案する。
また、各特徴に対して変化する係数に対してペナルティを課し、それらの共通する特徴に類似した係数を持つことを保証します。
論文 参考訳(メタデータ) (2023-01-04T12:48:05Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - Tighter Generalization Bounds for Iterative Differentially Private
Learning Algorithms [95.73230376153872]
本稿では,反復学習アルゴリズムにおける一般化とプライバシ保護の関係を2つのステップで検討する。
我々は、$(varepsilon, delta)$-differential privacyは、マルチデータベース学習アルゴリズムに縛られる平均的な一般化を意味することを証明している。
次に,ほとんどの学習アルゴリズムが共有する反復的な性質が,プライバシーの保護とさらなる一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2020-07-18T09:12:03Z) - No-Regret and Incentive-Compatible Online Learning [29.267666165169324]
本研究では,学習アルゴリズムの予測に対する影響を最大化するために,専門家が戦略的に行動するオンライン学習環境について検討する。
私たちは、学習アルゴリズムを、後見の最高の固定専門家に対して、不適切なものにしたいと考えています。
完全な情報設定と部分的な情報設定の両方について、専門家にとって後悔とインセンティブの相性のないアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。