論文の概要: IDIL: Imitation Learning of Intent-Driven Expert Behavior
- arxiv url: http://arxiv.org/abs/2404.16989v1
- Date: Thu, 25 Apr 2024 19:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:43:43.639926
- Title: IDIL: Imitation Learning of Intent-Driven Expert Behavior
- Title(参考訳): IDIL: インテント駆動型エキスパート行動の模倣学習
- Authors: Sangwon Seo, Vaibhav Unhelkar,
- Abstract要約: 我々は、専門家の多様な意図駆動行動を模倣する新しい模倣学習アルゴリズムIDILを紹介する。
シーケンシャルなタスクに高次元の状態表現で対処することができる。
生成モデルを作成すると、IDILはインテント推論の指標において優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When faced with accomplishing a task, human experts exhibit intentional behavior. Their unique intents shape their plans and decisions, resulting in experts demonstrating diverse behaviors to accomplish the same task. Due to the uncertainties encountered in the real world and their bounded rationality, experts sometimes adjust their intents, which in turn influences their behaviors during task execution. This paper introduces IDIL, a novel imitation learning algorithm to mimic these diverse intent-driven behaviors of experts. Iteratively, our approach estimates expert intent from heterogeneous demonstrations and then uses it to learn an intent-aware model of their behavior. Unlike contemporary approaches, IDIL is capable of addressing sequential tasks with high-dimensional state representations, while sidestepping the complexities and drawbacks associated with adversarial training (a mainstay of related techniques). Our empirical results suggest that the models generated by IDIL either match or surpass those produced by recent imitation learning benchmarks in metrics of task performance. Moreover, as it creates a generative model, IDIL demonstrates superior performance in intent inference metrics, crucial for human-agent interactions, and aptly captures a broad spectrum of expert behaviors.
- Abstract(参考訳): タスクの達成に直面した場合、人間の専門家は意図的な行動を示す。
彼らの独特な意図は、彼らの計画と決定を形作り、その結果、専門家は、同じタスクを達成するための多様な振る舞いを実証する。
現実世界で遭遇した不確実さと有界な合理性のために、専門家は時々意図を調整し、タスク実行時の行動に影響を与える。
本稿では,これらの多彩な意図駆動行動を模倣する新しい模倣学習アルゴリズムであるIDILを紹介する。
反復的に、異種実証から専門家の意図を推定し、その行動の意図認識モデルを学ぶ。
現代のアプローチとは異なり、IDILは高次元の状態表現でシーケンシャルなタスクに対処すると同時に、敵の訓練(関連する技術の中心)に関連する複雑さと欠点をサイドステッピングする。
実験結果から,IDILが生成したモデルが,近年の模擬学習ベンチマークで生成したモデルとタスク性能の指標を一致または上回っていることが示唆された。
さらに、生成モデルを作成すると、IDILは意図推論の指標において優れたパフォーマンスを示し、人間とエージェントの相互作用に不可欠であり、幅広い専門家の振る舞いを適切に捉えている。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Diverse Imitation Learning via Self-Organizing Generative Models [6.783186172518836]
模倣学習は、報酬関数へのアクセスなしに、デモンストレーションから専門家のポリシーを複製するタスクである。
我々は,行動クローニング(BC)のためのエンコーダフリー生成モデルを採用し,異なるモードを正確に識別し,模倣する。
提案手法は,複数の実験において技量を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-06T21:55:31Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Stochastic Action Prediction for Imitation Learning [1.6385815610837169]
模倣学習は、観察を行動にマップするポリシーを学ぶために専門家のデモンストレーションに依存するスキルを獲得するためのデータ駆動のアプローチです。
遠隔操作車によるライン追従を含むタスクのために収集されたデモに本質性を示す。
専門家データにおける相反性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2020-12-26T08:02:33Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。