論文の概要: A Note on Sample Complexity of Interactive Imitation Learning with Log Loss
- arxiv url: http://arxiv.org/abs/2412.07057v1
- Date: Mon, 09 Dec 2024 23:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:11.348481
- Title: A Note on Sample Complexity of Interactive Imitation Learning with Log Loss
- Title(参考訳): ログ損失を考慮した対話型模倣学習の複雑さに関する一考察
- Authors: Yichen Li, Chicheng Zhang,
- Abstract要約: イミテーション・ラーニング(Imitation Learning、IL)は、シーケンシャルな意思決定問題のエキスパートから学ぶための一般的なパラダイムである。
近年のILの進歩は、オフラインの模倣学習、特にログロスを伴う行動クローン(BC)が最小限の最適であることを示している。
本稿では,対話型模倣学習,特にログ損失のあるDAggerに着目し,実現可能な決定論的専門家と再考する。
- 参考スコア(独自算出の注目度): 22.703438243976876
- License:
- Abstract: Imitation learning (IL) is a general paradigm for learning from experts in sequential decision-making problems. Recent advancements in IL have shown that offline imitation learning, specifically Behavior Cloning (BC) with log loss, is minimax optimal. Meanwhile, its interactive counterpart, DAgger, is shown to suffer from suboptimal sample complexity. In this note, we focus on realizable deterministic expert and revisit interactive imitation learning, particularly DAgger with log loss. We demonstrate: 1. A one-sample-per-round DAgger variant that outperforms BC in state-wise annotation. 2. Without recoverability assumption, DAgger with first-step mixture policies matches the performance of BC. Along the analysis, we introduce a new notion of decoupled Hellinger distance that separates state and action sequences, which can be of independent interest.
- Abstract(参考訳): イミテーション・ラーニング(Imitation Learning、IL)は、シーケンシャルな意思決定問題のエキスパートから学ぶための一般的なパラダイムである。
近年のILの進歩は、オフラインの模倣学習、特にログロスを伴う行動クローン(BC)が最小限の最適であることを示している。
一方、対話的なDAggerは、最適なサンプルの複雑さに悩まされている。
本稿では,対話型模倣学習,特にログ損失のあるDAggerに着目し,実現可能な決定論的専門家と再考する。
以下に示す。
1. ステートワイドアノテーションにおいてBCより優れた1サンプル単位のDAggerバリアント。
2. 回復可能性の仮定がなければ、第1段階の混合ポリシーを持つDAggerは、BCのパフォーマンスと一致する。
そこで本研究では,分離したヘリンジャー距離の概念を新たに導入し,状態列と行動列を分離する。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Contrastive Learning Is Not Optimal for Quasiperiodic Time Series [4.2807943283312095]
本稿では,ほぼ周期時間系列(DEAPS)の蒸留埋め込みについて紹介する。
DEAPSは、心電図(ECG)データなどの準周期時系列に適した非コントラスト法である。
機械学習(ML)モデルに適合するアノテートレコードがわずかに提示された場合,既存のSOTAメソッドよりも10%向上したことを示す。
論文 参考訳(メタデータ) (2024-07-24T08:02:41Z) - BECLR: Batch Enhanced Contrastive Few-Shot Learning [1.450405446885067]
教師なしの少数ショット学習は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。
本稿では,高度に分離可能な潜在表現空間を促進するために,新しい動的クラスタ mEmory (DyCE) モジュールを提案する。
そして、数ショットの推論段階でサンプルバイアスの問題に取り組みます。
論文 参考訳(メタデータ) (2024-02-04T10:52:43Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift [12.93527098342393]
我々は,過去の行動に対する条件付けが,学習者の「実行」エラーと性能の劇的な相違につながることを論じる。
我々は、模倣学習アプローチをテストするために使用される既存のベンチマークを分析する。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-02-04T20:18:56Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Concurrent Training Improves the Performance of Behavioral Cloning from
Observation [10.939683083130616]
デモから学ぶことは、ロボットが新しいスキルを身につけるための効率的な方法として広く利用されている。
観察から学ぶことは、ラベルのないデモ(例えばビデオ)を使って模倣学習を行う手段を提供する。
これに対する1つのアプローチは、観察からの行動クローニング(BCO)である。
本稿では,BCO の新たな理論的解析,修正 BCO* の導入,および半教師付き設定において,BCO* は逆ダイナミクスモデルとエキスパートポリシーの両方の見積もりを同時に改善可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T21:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。