論文の概要: Stochastic Action Prediction for Imitation Learning
- arxiv url: http://arxiv.org/abs/2101.01055v1
- Date: Sat, 26 Dec 2020 08:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:05:57.944111
- Title: Stochastic Action Prediction for Imitation Learning
- Title(参考訳): 模倣学習のための確率的行動予測
- Authors: Sagar Gubbi Venkatesh and Nihesh Rathod and Shishir Kolathaya and
Bharadwaj Amrutur
- Abstract要約: 模倣学習は、観察を行動にマップするポリシーを学ぶために専門家のデモンストレーションに依存するスキルを獲得するためのデータ駆動のアプローチです。
遠隔操作車によるライン追従を含むタスクのために収集されたデモに本質性を示す。
専門家データにおける相反性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 1.6385815610837169
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imitation learning is a data-driven approach to acquiring skills that relies
on expert demonstrations to learn a policy that maps observations to actions.
When performing demonstrations, experts are not always consistent and might
accomplish the same task in slightly different ways. In this paper, we
demonstrate inherent stochasticity in demonstrations collected for tasks
including line following with a remote-controlled car and manipulation tasks
including reaching, pushing, and picking and placing an object. We model
stochasticity in the data distribution using autoregressive action generation,
generative adversarial nets, and variational prediction and compare the
performance of these approaches. We find that accounting for stochasticity in
the expert data leads to substantial improvement in the success rate of task
completion.
- Abstract(参考訳): 模倣学習(imitation learning)は、専門家によるデモンストレーションに頼って、観察を行動にマッピングするポリシーを学ぶための、データ駆動の手法である。
デモを行う場合、専門家は常に一貫性があり、わずかに異なる方法で同じタスクを達成する可能性がある。
本稿では,遠隔操作車に追従するラインや,物体の到達,押圧,ピック,配置などの操作タスクを含む,実演における固有確率性を示す。
自己回帰的行動生成,生成的逆ネット,変動予測を用いてデータ分布の確率性をモデル化し,これらの手法の性能を比較する。
専門家データにおける確率性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
関連論文リスト
- Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-19T13:47:17Z) - Zero-shot Imitation Policy via Search in Demonstration Dataset [0.16817021284806563]
行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
本稿では,事前学習した基礎モデルの潜在空間を用いて,実演データセットをインデックス化することを提案する。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2024-01-29T18:38:29Z) - A Supervised Contrastive Learning Pretrain-Finetune Approach for Time
Series [15.218841180577135]
本稿では,教師付きコントラスト学習を利用して,事前学習データセット内の特徴を識別する新しい事前学習手法を提案する。
次に、事前学習データセットの学習力学とより密に連携することで、目標データの正確な予測を強化するための微調整手順を提案する。
論文 参考訳(メタデータ) (2023-11-21T02:06:52Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Multi-Task Self-Supervised Time-Series Representation Learning [3.31490164885582]
時系列表現学習は、時間的ダイナミクスとスパースラベルを持つデータから表現を抽出することができる。
自己教師型タスクの利点を組み合わせた時系列表現学習手法を提案する。
本稿では,時系列分類,予測,異常検出という3つのダウンストリームタスクの枠組みについて検討する。
論文 参考訳(メタデータ) (2023-03-02T07:44:06Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。