論文の概要: On Combining Expert Demonstrations in Imitation Learning via Optimal
Transport
- arxiv url: http://arxiv.org/abs/2307.10810v1
- Date: Thu, 20 Jul 2023 12:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:07:43.268308
- Title: On Combining Expert Demonstrations in Imitation Learning via Optimal
Transport
- Title(参考訳): 最適輸送による模倣学習におけるエキスパートの実証
- Authors: Ilana Sebag, Samuel Cohen, Marc Peter Deisenroth
- Abstract要約: IL(Imitation Learning)は、専門家によるデモンストレーションを通じて、エージェントに特定のタスクを教えることを目的としている。
ILの主要なアプローチの1つは、エージェントと専門家の間の距離を定義することである。
本稿では,マルチマージ最適輸送距離を用いた代替手法を提案する。
- 参考スコア(独自算出の注目度): 17.431371727883544
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Imitation learning (IL) seeks to teach agents specific tasks through expert
demonstrations. One of the key approaches to IL is to define a distance between
agent and expert and to find an agent policy that minimizes that distance.
Optimal transport methods have been widely used in imitation learning as they
provide ways to measure meaningful distances between agent and expert
trajectories. However, the problem of how to optimally combine multiple expert
demonstrations has not been widely studied. The standard method is to simply
concatenate state (-action) trajectories, which is problematic when
trajectories are multi-modal. We propose an alternative method that uses a
multi-marginal optimal transport distance and enables the combination of
multiple and diverse state-trajectories in the OT sense, providing a more
sensible geometric average of the demonstrations. Our approach enables an agent
to learn from several experts, and its efficiency is analyzed on OpenAI Gym
control environments and demonstrates that the standard method is not always
optimal.
- Abstract(参考訳): 模倣学習(il)は、専門家によるデモンストレーションを通じてエージェントに特定のタスクを教える。
ILの主要なアプローチの1つは、エージェントと専門家の間の距離を定義し、その距離を最小化するエージェントポリシーを見つけることである。
エージェントと専門家の軌跡間の有意な距離を測定する手段を提供するため、模倣学習において最適な輸送法が広く用いられている。
しかしながら、複数の専門家によるデモを最適に組み合わせる方法については、広く研究されていない。
標準的な方法は、状態(-アクション)軌跡を単純に結合することであり、これはトラジェクトリがマルチモーダルである場合に問題となる。
提案手法は,マルチマルジナルな最適輸送距離を用いて,複数の状態軌跡と多種多様な状態軌跡の組み合わせをOT感覚で実現し,より合理的な幾何平均値を提供する方法である。
提案手法は,複数の専門家からエージェントが学習し,その効率をOpenAI Gym制御環境上で解析し,標準手法が常に最適であるとは限らないことを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Distill Knowledge in Multi-task Reinforcement Learning with
Optimal-Transport Regularization [0.24475591916185496]
マルチタスク強化学習では、他の異なるタスクから知識を伝達することで、トレーニングエージェントのデータ効率を向上させることができる。
伝統的な手法は、あるタスクから他のタスクへの知識の移動を安定化するために、Kulback-Leibler正規化に依存している。
本研究では,Kulback-Leiblerの発散を,新しいトランスポートベース正規化に置き換える方向について検討する。
論文 参考訳(メタデータ) (2023-09-27T12:06:34Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。
近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。
本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T18:50:58Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Diverse and Admissible Trajectory Forecasting through Multimodal Context
Understanding [46.52703817997932]
自律走行におけるマルチエージェント軌道予測には、周囲の車両や歩行者の挙動を正確に予測するエージェントが必要である。
マルチモーダル世界から複数の入力信号を合成するモデルを提案する。
従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-06T13:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。