論文の概要: Domain-Adversarial and Conditional State Space Model for Imitation
Learning
- arxiv url: http://arxiv.org/abs/2001.11628v2
- Date: Fri, 4 Jun 2021 06:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 05:34:52.372964
- Title: Domain-Adversarial and Conditional State Space Model for Imitation
Learning
- Title(参考訳): 模倣学習のための領域逆・条件付き状態空間モデル
- Authors: Ryo Okumura, Masashi Okada and Tadahiro Taniguchi
- Abstract要約: 部分的に観測可能なマルコフ決定過程における状態表現学習(SRL)は、ロボット制御タスクに有用なデータの抽象的特徴を学習するために研究されている。
本稿では,ドメインに依存しない,タスクに依存しない状態と動的状態の制御システムを実現するために,DAC-SSM(Domain-Adversarial and Conditional State Space Model)を提案する。
シミュレータにおけるスパース報酬タスクの連続制御のための模擬学習によるモデル予測制御性能を実験的に評価した。
- 参考スコア(独自算出の注目度): 12.654871396334668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State representation learning (SRL) in partially observable Markov decision
processes has been studied to learn abstract features of data useful for robot
control tasks. For SRL, acquiring domain-agnostic states is essential for
achieving efficient imitation learning. Without these states, imitation
learning is hampered by domain-dependent information useless for control.
However, existing methods fail to remove such disturbances from the states when
the data from experts and agents show large domain shifts. To overcome this
issue, we propose a domain-adversarial and conditional state space model
(DAC-SSM) that enables control systems to obtain domain-agnostic and task- and
dynamics-aware states. DAC-SSM jointly optimizes the state inference,
observation reconstruction, forward dynamics, and reward models. To remove
domain-dependent information from the states, the model is trained with domain
discriminators in an adversarial manner, and the reconstruction is conditioned
on domain labels. We experimentally evaluated the model predictive control
performance via imitation learning for continuous control of sparse reward
tasks in simulators and compared it with the performance of the existing SRL
method. The agents from DAC-SSM achieved performance comparable to experts and
more than twice the baselines. We conclude domain-agnostic states are essential
for imitation learning that has large domain shifts and can be obtained using
DAC-SSM.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程における状態表現学習(SRL)は、ロボット制御タスクに有用なデータの抽象的特徴を学習するために研究されている。
SRLにとって、ドメインに依存しない状態を取得することは、効率的な模倣学習を実現するために不可欠である。
これらの状態がなければ、模倣学習は制御に役立たないドメイン依存の情報によって妨げられる。
しかし、専門家やエージェントのデータが大きなドメインシフトを示す場合、既存の手法ではそのような障害を取り除くことができない。
この問題を克服するために,制御系がドメインに依存しない,タスクや動的に認識できる状態空間モデル(DAC-SSM)を提案する。
dac-ssmは状態推論、観測再構成、前方ダイナミクス、報酬モデルを共同で最適化する。
ドメインに依存した情報を状態から取り除くために、モデルをドメイン識別器で対角的に訓練し、ドメインラベルに再構成を条件付ける。
シミュレータにおけるスパース報酬タスクの連続制御のための模擬学習によるモデル予測制御性能を実験的に評価し,既存のSRL法と比較した。
DAC-SSMのエージェントは専門家に匹敵し、ベースラインの2倍以上のパフォーマンスを達成した。
ドメインに依存しない状態は、大きなドメインシフトを持ち、DAC-SSMを用いて得ることができる模倣学習に不可欠である。
関連論文リスト
- Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Towards Federated Domain Unlearning: Verification Methodologies and Challenges [34.9987941096371]
フェデレート・ドメイン・アンラーニングに関する最初の総合的な実証的研究について紹介する。
その結果,非学習がモデルの深い層に不均等に影響を及ぼすことが判明した。
フェデレート・ドメイン・アンラーニングに適した新しい評価手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T09:05:55Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Provably Sample-Efficient RL with Side Information about Latent Dynamics [12.461789905893026]
本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。
我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T21:07:03Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。