論文の概要: Ensemble-based Interactive Imitation Learning
- arxiv url: http://arxiv.org/abs/2312.16860v1
- Date: Thu, 28 Dec 2023 07:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:57:38.105998
- Title: Ensemble-based Interactive Imitation Learning
- Title(参考訳): アンサンブルに基づくインタラクティブ模倣学習
- Authors: Yichen Li, Chicheng Zhang
- Abstract要約: 本研究では、対話型模倣学習について研究し、学習者がアクションアノテーションの実証的な専門家に対話的に問い合わせる。
本稿では,この目標を達成するアルゴリズムフレームワークであるEnsemble-based Interactive Imitation Learning (EIIL)を提案する。
- 参考スコア(独自算出の注目度): 26.821104724576784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study interactive imitation learning, where a learner interactively
queries a demonstrating expert for action annotations, aiming to learn a policy
that has performance competitive with the expert, using as few annotations as
possible. We give an algorithmic framework named Ensemble-based Interactive
Imitation Learning (EIIL) that achieves this goal. Theoretically, we prove that
an oracle-efficient version of EIIL achieves sharp regret guarantee, given
access to samples from some ``explorative'' distribution over states.
Empirically, EIIL notably surpasses online and offline imitation learning
benchmarks in continuous control tasks. Our work opens up systematic
investigations on the benefit of using model ensembles for interactive
imitation learning.
- Abstract(参考訳): 本研究では,対話型模倣学習について検討し,学習者が行動アノテーションの実証的専門家に対話的に質問し,専門家と性能的に競合するポリシーを可能な限り少ないアノテーションで学習することを目的とした。
この目標を達成するためのアルゴリズムフレームワークとして,アンサンブルベースインタラクティブ模倣学習(eiil)を提案する。
理論的には、EIILのオラクル効率のよいバージョンは、状態上の「探索的」分布からサンプルにアクセスすると、鋭い後悔の保証が得られることを証明している。
経験上、eiilはオンラインおよびオフラインの模倣学習ベンチマークを連続制御タスクで上回っている。
本研究は,インタラクティブな模倣学習にモデルアンサンブルを用いることのメリットについて,体系的な調査を行う。
関連論文リスト
- Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Syntax-Informed Interactive Model for Comprehensive Aspect-Based
Sentiment Analysis [0.0]
総合ABSAのためのシンタクティック・依存性強化マルチタスクインタラクション・アーキテクチャ(SDEMTIA)を提案する。
我々のアプローチは、SDEIN(Syntactic Dependency Embedded Interactive Network)を用いた構文知識(依存関係と型)を革新的に活用する。
また,学習効率を高めるために,マルチタスク学習フレームワークに,新規で効率的なメッセージパッシング機構を組み込んだ。
論文 参考訳(メタデータ) (2023-11-28T16:03:22Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Multi-Task Learning based Online Dialogic Instruction Detection with
Pre-trained Language Models [34.66425105076059]
コントラッシブ・ロスによりカテゴリ間のマージンを大きくすることで、異なるクラスのインスタンスを識別する能力を向上するマルチタスク・パラダイムを提案する。
実世界のオンライン教育データセットを用いた実験により,本手法が代表的ベースラインよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-07-15T04:57:57Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Interactive Learning from Activity Description [11.068923430996575]
本稿では,要求充足エージェントを言語的に記述することで,要求充足エージェントの訓練を可能にする対話型学習プロトコルを提案する。
我々のプロトコルは、模倣学習(IL)や強化学習(RL)といった従来のアルゴリズムと相補的な優位性を提供する対話型学習アルゴリズムの新しいファミリーを生み出している。
我々は,このプロトコルを実践的に実装し,純粋に言語記述フィードバックを用いた2つの要求充足問題をエージェントに訓練するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-02-13T22:51:11Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。