論文の概要: Offline Imitation Learning by Controlling the Effective Planning Horizon
- arxiv url: http://arxiv.org/abs/2401.09728v1
- Date: Thu, 18 Jan 2024 05:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 18:01:08.527100
- Title: Offline Imitation Learning by Controlling the Effective Planning Horizon
- Title(参考訳): 効果的な計画水平制御によるオフライン模倣学習
- Authors: Hee-Jun Ahn, Seong-Woong Shim, Byung-Jun Lee
- Abstract要約: 明示的な正則化を課すのではなく,効果的な計画的地平を制御できることについて検討する。
修正アルゴリズムは、明示的な正規化ではなく、効果的な計画地平線を制御することによって、一般的な模倣学習ベンチマークを改善することを示す。
- 参考スコア(独自算出の注目度): 5.844892266835562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline imitation learning (IL), we generally assume only a handful of
expert trajectories and a supplementary offline dataset from suboptimal
behaviors to learn the expert policy. While it is now common to minimize the
divergence between state-action visitation distributions so that the agent also
considers the future consequences of an action, a sampling error in an offline
dataset may lead to erroneous estimates of state-action visitations in the
offline case. In this paper, we investigate the effect of controlling the
effective planning horizon (i.e., reducing the discount factor) as opposed to
imposing an explicit regularizer, as previously studied. Unfortunately, it
turns out that the existing algorithms suffer from magnified approximation
errors when the effective planning horizon is shortened, which results in a
significant degradation in performance. We analyze the main cause of the
problem and provide the right remedies to correct the algorithm. We show that
the corrected algorithm improves on popular imitation learning benchmarks by
controlling the effective planning horizon rather than an explicit
regularization.
- Abstract(参考訳): オフライン模倣学習(IL)では、一般的に、専門家ポリシーを学ぶために、少数の専門家の軌跡と、準最適行動からの補足的なオフラインデータセットのみを仮定する。
現在、状態-行動訪問分布間のばらつきを最小限に抑え、エージェントが行動の将来の結果も考慮するようにすることが一般的であるが、オフラインデータセットにおけるサンプリングエラーは、オフラインケースにおける状態-行動訪問の誤った推定につながる可能性がある。
本稿では,先行研究した明示的な正規化子を課すのではなく,効果的な計画方針(すなわち割引率の低減)を制御する効果について検討する。
残念ながら、既存のアルゴリズムは効率的な計画の地平線が短くなると近似誤差の増大に悩まされ、性能が著しく低下することがわかった。
問題の主な原因を分析し、アルゴリズムを正すための適切な治療法を提供する。
修正アルゴリズムは, 明示的な正規化ではなく, 効果的な計画ホライズンを制御することにより, 一般的な模倣学習ベンチマークを改善できることを示す。
関連論文リスト
- Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - Disparate Impact on Group Accuracy of Linearization for Private Inference [48.27026603581436]
多数派と比較して,ReLUアクティベーション数の減少は少数派に対する精度を著しく低下させることを示す。
また,線形化モデルの微調整手順を変更する簡単な手順が,効果的な緩和戦略として有効であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:56:29Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。