論文の概要: Semi-Supervised Imitation Learning of Team Policies from Suboptimal
Demonstrations
- arxiv url: http://arxiv.org/abs/2205.02959v1
- Date: Thu, 5 May 2022 23:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:19:10.929747
- Title: Semi-Supervised Imitation Learning of Team Policies from Suboptimal
Demonstrations
- Title(参考訳): 準最適化によるチームポリシーの擬似学習
- Authors: Sangwon Seo and Vaibhav V. Unhelkar
- Abstract要約: マルコフ領域における逐次的なタスクを実行するチームの振る舞いをモデル化するための模倣学習アルゴリズムを提案する。
既存のマルチエージェントの模倣学習技術とは対照的に、BTILはチームメンバーの時間的な精神状態を明確にモデル化し、推論する。
- 参考スコア(独自算出の注目度): 3.5179584114197286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Bayesian Team Imitation Learner (BTIL), an imitation learning
algorithm to model behavior of teams performing sequential tasks in Markovian
domains. In contrast to existing multi-agent imitation learning techniques,
BTIL explicitly models and infers the time-varying mental states of team
members, thereby enabling learning of decentralized team policies from
demonstrations of suboptimal teamwork. Further, to allow for sample- and
label-efficient policy learning from small datasets, BTIL employs a Bayesian
perspective and is capable of learning from semi-supervised demonstrations. We
demonstrate and benchmark the performance of BTIL on synthetic multi-agent
tasks as well as a novel dataset of human-agent teamwork. Our experiments show
that BTIL can successfully learn team policies from demonstrations despite the
influence of team members' (time-varying and potentially misaligned) mental
states on their behavior.
- Abstract(参考訳): マルコフ領域における逐次タスクを実行するチームの振る舞いをモデル化する模倣学習アルゴリズムであるBayesian Team Imitation Learner(BTIL)を提案する。
既存のマルチエージェントの模倣学習技術とは対照的に、BTILはチームメンバーの時間的な精神状態を明確にモデル化し、推論することで、最適なチームワークのデモンストレーションから分散型チームポリシーの学習を可能にする。
さらに、小さなデータセットからサンプルおよびラベル効率のポリシー学習を可能にするため、BTILはベイズ的な視点を採用し、半教師付きデモンストレーションから学ぶことができる。
我々は,人工マルチエージェントタスクにおけるbtilの性能と,ヒューマンエージェントチームワークの新たなデータセットの実証とベンチマークを行った。
実験の結果、btilは、チームメンバの精神状態(時間的変動と潜在的に不一致)が行動に与える影響に関わらず、デモからチームのポリシーをうまく学習できることが分かりました。
関連論文リスト
- AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Zero-shot Imitation Policy via Search in Demonstration Dataset [0.16817021284806563]
行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
本稿では,事前学習した基礎モデルの潜在空間を用いて,実演データセットをインデックス化することを提案する。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2024-01-29T18:38:29Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks [2.1485350418225244]
Meta- LearningとAdversarial Inverseforcement Learningを統合した適応型模倣学習モデルを構築します。
敵対的学習と逆強化学習メカニズムを利用して、利用可能なトレーニングタスクからポリシーと報酬機能を同時に学習します。
論文 参考訳(メタデータ) (2021-03-23T17:16:38Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。