論文の概要: Of Moments and Matching: Trade-offs and Treatments in Imitation Learning
- arxiv url: http://arxiv.org/abs/2103.03236v1
- Date: Thu, 4 Mar 2021 18:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:04:06.324328
- Title: Of Moments and Matching: Trade-offs and Treatments in Imitation Learning
- Title(参考訳): モーメントとマッチング:模倣学習におけるトレードオフと治療
- Authors: Gokul Swamy, Sanjiban Choudhury, Zhiwei Steven Wu, J. Andrew Bagnell
- Abstract要約: 我々は、モーメントマッチングのレンズを通して、過去の模倣学習アルゴリズムの大規模なファミリの統一ビューを提供する。
学習者と専門家の行動の相違を考慮することで、政策パフォーマンスの限界を導出することができる。
AdVILとAdRILという2つの新しいアルゴリズムテンプレートを、強力な保証、シンプルな実装、競争力のある実証的パフォーマンスで導出します。
- 参考スコア(独自算出の注目度): 26.121994149869767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a unifying view of a large family of previous imitation learning
algorithms through the lens of moment matching. At its core, our classification
scheme is based on whether the learner attempts to match (1) reward or (2)
action-value moments of the expert's behavior, with each option leading to
differing algorithmic approaches. By considering adversarially chosen
divergences between learner and expert behavior, we are able to derive bounds
on policy performance that apply for all algorithms in each of these classes,
the first to our knowledge. We also introduce the notion of recoverability,
implicit in many previous analyses of imitation learning, which allows us to
cleanly delineate how well each algorithmic family is able to mitigate
compounding errors. We derive two novel algorithm templates, AdVIL and AdRIL,
with strong guarantees, simple implementation, and competitive empirical
performance.
- Abstract(参考訳): 我々は、モーメントマッチングのレンズを通して、過去の模倣学習アルゴリズムの大規模なファミリの統一ビューを提供する。
その中心となる分類法は,(1)報奨と(2)専門家の行動の行動価値モーメントを一致させようとする学習者かに基づいており,それぞれの選択肢によって異なるアルゴリズム的アプローチが導かれる。
学習者と専門家の行動の反対に選択された分岐を考慮することによって、私たちはこれらのクラスのすべてのアルゴリズムに適用する政策パフォーマンスの境界を導き出すことができます。
また,従来の模擬学習において暗黙的な復元可能性の概念を導入し,各アルゴリズムファミリーが複合的誤りを軽減できるかを明確化することができる。
AdVILとAdRILという2つの新しいアルゴリズムテンプレートを、強力な保証、シンプルな実装、競争力のある実証的パフォーマンスで導出します。
関連論文リスト
- Two-stage Learning-to-Defer for Multi-Task Learning [0.0]
分類タスクと回帰タスクの両方を包含するマルチタスク学習のためのLearning-to-Deferアプローチを提案する。
我々の2段階のアプローチでは、事前訓練された共同回帰モデルと1つ以上の外部の専門家のうち、最も正確なエージェントに決定を下すリジェクターを使用します。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Bounds on the Generalization Error in Active Learning [0.0]
一般化誤差に上限の族を導出することにより,能動的学習のための経験的リスク原理を確立する。
我々は,多種多様な能動学習シナリオを体系的にリンクし,それらの損失関数と仮説クラスを対応する上界に関連付ける。
この結果から,様々な仮説クラスの複雑性を制約するために用いられる正規化手法は,境界の妥当性を確保するのに十分な条件であることが示唆された。
論文 参考訳(メタデータ) (2024-09-10T08:08:09Z) - Learning-to-Optimize with PAC-Bayesian Guarantees: Theoretical Considerations and Practical Implementation [4.239829789304117]
最適学習の設定にはPAC-ベイズ理論を用いる。
証明可能な一般化保証付き最適化アルゴリズムを学習する最初のフレームワークを提示する。
学習アルゴリズムは、(決定論的)最悪のケース分析から得られた関連アルゴリズムを確実に上回ります。
論文 参考訳(メタデータ) (2024-04-04T08:24:57Z) - Predictor-Rejector Multi-Class Abstention: Theoretical Analysis and Algorithms [30.389055604165222]
マルチクラス分類設定において,留意を伴う学習の鍵となる枠組みについて検討する。
この設定では、学習者は事前に定義されたコストで予測をしないことを選択できる。
我々は、強い非漸近的および仮説的整合性を保証するために、いくつかの新しい代理損失の族を導入する。
論文 参考訳(メタデータ) (2023-10-23T10:16:27Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Identifying Co-Adaptation of Algorithmic and Implementational
Innovations in Deep Reinforcement Learning: A Taxonomy and Case Study of
Inference-based Algorithms [15.338931971492288]
我々は、アルゴリズムの革新と実装決定を分離するために、一連の推論に基づくアクター批判アルゴリズムに焦点を当てる。
実装の詳細がアルゴリズムの選択に一致すると、パフォーマンスが大幅に低下します。
結果は、どの実装の詳細がアルゴリズムと共適応され、共進化しているかを示す。
論文 参考訳(メタデータ) (2021-03-31T17:55:20Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - Tighter Generalization Bounds for Iterative Differentially Private
Learning Algorithms [95.73230376153872]
本稿では,反復学習アルゴリズムにおける一般化とプライバシ保護の関係を2つのステップで検討する。
我々は、$(varepsilon, delta)$-differential privacyは、マルチデータベース学習アルゴリズムに縛られる平均的な一般化を意味することを証明している。
次に,ほとんどの学習アルゴリズムが共有する反復的な性質が,プライバシーの保護とさらなる一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2020-07-18T09:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。