論文の概要: Provably Efficient Third-Person Imitation from Offline Observation
- arxiv url: http://arxiv.org/abs/2002.12446v1
- Date: Thu, 27 Feb 2020 21:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:57:46.232706
- Title: Provably Efficient Third-Person Imitation from Offline Observation
- Title(参考訳): オフライン観察による高能率第三者模倣
- Authors: Aaron Zweig and Joan Bruna
- Abstract要約: 模倣学習におけるドメイン適応は、一般化性を改善するための重要なステップである。
オフライン環境での観察から第三者の模倣に対する問題依存的,統計的学習を保証するとともに,オンライン環境でのパフォーマンスに対する制約を低くする。
- 参考スコア(独自算出の注目度): 48.80300074254758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain adaptation in imitation learning represents an essential step towards
improving generalizability. However, even in the restricted setting of
third-person imitation where transfer is between isomorphic Markov Decision
Processes, there are no strong guarantees on the performance of transferred
policies. We present problem-dependent, statistical learning guarantees for
third-person imitation from observation in an offline setting, and a lower
bound on performance in the online setting.
- Abstract(参考訳): 模倣学習におけるドメイン適応は、一般化性を改善するための重要なステップである。
しかし、同型マルコフ決定過程間の移動が制限された第三者模倣においても、転送されたポリシーのパフォーマンスに強い保証はない。
オフライン環境での観察から第三者の模倣に対する問題依存的,統計的学習を保証するとともに,オンライン環境でのパフォーマンスに対する制約を低くする。
関連論文リスト
- Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers [0.7496510641958004]
我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。
SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
論文 参考訳(メタデータ) (2024-05-21T13:28:32Z) - Robust Representation Learning with Self-Distillation for Domain Generalization [2.0817769887373245]
本稿では,ロバスト表現学習(Robust Representation Learning with Self-Distillation)と呼ばれる新しい領域一般化手法を提案する。
3つのデータセットの最先端データに対して、平均精度を1.2%から2.3%に改善する。
論文 参考訳(メタデータ) (2023-02-14T07:39:37Z) - Boosting Cross-Domain Speech Recognition with Self-Supervision [35.01508881708751]
自動音声認識(ASR)のクロスドメイン性能は,トレーニングとテストのミスマッチにより著しく損なわれる可能性がある。
従来, 自己監督学習 (SSL) や擬似ラベル学習 (PL) は, 未ラベルデータの自己監督を利用してUDAに有効であることが示された。
この研究は、事前学習および微調整のパラダイムにおいて、ラベルなしデータを完全に活用する体系的なUDAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:02:53Z) - Balancing Discriminability and Transferability for Source-Free Domain
Adaptation [55.143687986324935]
従来のドメイン適応(DA)技術は、ドメイン不変表現を学習することでドメイン転送性を改善することを目的としている。
ラベル付けされたソースとラベル付けされていないターゲットへの同時アクセス要件は、ソースフリーなDA設定に適さない。
そこで本研究では,原文と翻訳サンプルの混在が識別可能性と伝達可能性のトレードオフを促進することを示す新しい知見を導出する。
論文 参考訳(メタデータ) (2022-06-16T09:06:22Z) - A Mutually Reinforced Framework for Pretrained Sentence Embeddings [49.297766436632685]
InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。
文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
論文 参考訳(メタデータ) (2022-02-28T14:00:16Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Selective Pseudo-Labeling with Reinforcement Learning for
Semi-Supervised Domain Adaptation [116.48885692054724]
半教師付きドメイン適応のための強化学習に基づく選択擬似ラベル法を提案する。
高精度かつ代表的な擬似ラベルインスタンスを選択するための深層Q-ラーニングモデルを開発する。
提案手法は, SSDAのベンチマークデータセットを用いて評価し, 全ての比較手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-07T03:37:38Z) - Discriminative Active Learning for Domain Adaptation [16.004653151961303]
我々は、データアノテーションの労力を減らすために、ドメイン適応のための差別的なアクティブな学習手法を導入する。
具体的には,ニューラルネットワークの3段階能動対向トレーニングを提案する。
4つのベンチマークデータセットを用いた既存領域適応手法との比較実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-05-24T04:20:49Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。