論文の概要: Efficient Active Imitation Learning with Random Network Distillation
- arxiv url: http://arxiv.org/abs/2411.01894v1
- Date: Mon, 04 Nov 2024 08:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:59.688140
- Title: Efficient Active Imitation Learning with Random Network Distillation
- Title(参考訳): ランダムネットワーク蒸留による効率的な能動模倣学習
- Authors: Emilien Biré, Anthony Kobanda, Ludovic Denoyer, Rémy Portelas,
- Abstract要約: Random Network Distillation DAgger (RND-DAgger) は、新しいアクティブな模倣学習法である。
学習した状態ベースのアウト・オブ・ディストリビューション(out-of-distribution)手段を使用して介入をトリガーすることで、専門家によるクエリを制限します。
RND-DAggerを従来の模倣学習や3Dビデオゲームやロボット作業におけるアクティブなアプローチに対して評価する。
- 参考スコア(独自算出の注目度): 8.517915878774756
- License:
- Abstract: Developing agents for complex and underspecified tasks, where no clear objective exists, remains challenging but offers many opportunities. This is especially true in video games, where simulated players (bots) need to play realistically, and there is no clear reward to evaluate them. While imitation learning has shown promise in such domains, these methods often fail when agents encounter out-of-distribution scenarios during deployment. Expanding the training dataset is a common solution, but it becomes impractical or costly when relying on human demonstrations. This article addresses active imitation learning, aiming to trigger expert intervention only when necessary, reducing the need for constant expert input along training. We introduce Random Network Distillation DAgger (RND-DAgger), a new active imitation learning method that limits expert querying by using a learned state-based out-of-distribution measure to trigger interventions. This approach avoids frequent expert-agent action comparisons, thus making the expert intervene only when it is useful. We evaluate RND-DAgger against traditional imitation learning and other active approaches in 3D video games (racing and third-person navigation) and in a robotic locomotion task and show that RND-DAgger surpasses previous methods by reducing expert queries. https://sites.google.com/view/rnd-dagger
- Abstract(参考訳): 明確な目的が存在しない複雑な未特定タスクのためのエージェントの開発は依然として困難だが、多くの機会を提供する。
これは、シミュレーションされたプレイヤー(ボット)が現実的にプレイする必要があるビデオゲームでは特に当てはまり、それらを評価するための明確な報酬は存在しない。
模倣学習はそのような領域で有望であるが、エージェントがデプロイ中に配布外シナリオに遭遇すると、これらの手法は失敗することが多い。
トレーニングデータセットを拡張することは一般的なソリューションですが、人間のデモに依存すると、現実的あるいはコストがかかります。
本稿では,必要に応じて専門家の介入を促すことを目的とした,アクティブな模倣学習について論じる。
我々は,学習した状態に基づくアウト・オブ・ディストリビューション尺度を用いて,専門家のクエリを制限する,新たなアクティブな模倣学習手法であるRandom Network Distillation DAgger(RND-DAgger)を紹介した。
このアプローチは、専門家とエージェントのアクション比較を頻繁に避け、専門家が有用である場合にのみ介入する。
RND-DAggerは従来の模倣学習や3Dビデオゲーム(レイティングやサードパーソンナビゲーション)やロボティック・ロコモーションタスクにおけるアクティブなアプローチに対して評価を行い、専門家の問い合わせを減らして従来の手法を超越していることを示す。
https://sites.google.com/view/rnd-dagger
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Self-Supervised Adversarial Imitation Learning [20.248498544165184]
行動クローンは、専門家によるデモンストレーションを通じてエージェントに行動の仕方を教える。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これまでの作業では、この問題を解決するためにゴール認識戦略を使用していました。
差別化を元のフレームワークに組み込むことによって、この制限に対処する。
論文 参考訳(メタデータ) (2023-04-21T12:12:33Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。