論文の概要: Rethinking ValueDice: Does It Really Improve Performance?
- arxiv url: http://arxiv.org/abs/2202.02468v1
- Date: Sat, 5 Feb 2022 02:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-13 16:34:32.510444
- Title: Rethinking ValueDice: Does It Really Improve Performance?
- Title(参考訳): ValueDiceを再考する: パフォーマンスは本当に改善されるか?
- Authors: Ziniu Li, Tian Xu, Yang Yu, Zhi-Quan Luo
- Abstract要約: ValueDiceは、オフライン設定下での振る舞いのクローンという古典的なアプローチに勝っていることを示す。
また、オーバーフィッティングと正規化が重要であることも証明します。
本稿では,本研究がValueDiceを超えた模倣学習研究にもたらす意味について論じる。
- 参考スコア(独自算出の注目度): 24.70187647541753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the introduction of GAIL, adversarial imitation learning (AIL) methods
attract lots of research interests. Among these methods, ValueDice has achieved
significant improvements: it beats the classical approach Behavioral Cloning
(BC) under the offline setting, and it requires fewer interactions than GAIL
under the online setting. Are these improvements benefited from more advanced
algorithm designs? We answer this question with the following conclusions.
First, we show that ValueDice could reduce to BC under the offline setting.
Second, we verify that overfitting exists and regularization matters.
Specifically, we demonstrate that with weight decay, BC also nearly matches the
expert performance as ValueDice does. The first two claims explain the superior
offline performance of ValueDice. Third, we establish that ValueDice does not
work at all when the expert trajectory is subsampled. Instead, the mentioned
success holds when the expert trajectory is complete, in which ValueDice is
closely related to BC that performs well as mentioned. Finally, we discuss the
implications of our research for imitation learning studies beyond ValueDice.
- Abstract(参考訳): GAILの導入以来、敵対的模倣学習(AIL)手法は多くの研究の関心を集めている。
これらの方法の中で、ValueDiceは、オフライン環境での古典的アプローチである振舞いクローン(BC)を破り、オンライン環境でのGAILよりも少ないインタラクションを必要としている。
これらの改善は、より高度なアルゴリズム設計の恩恵を受けるだろうか?
我々は以下の結論でこの質問に答える。
まず、オフライン設定でValueDiceをBCに還元できることを示します。
第2に、オーバーフィッティングの存在と正規化が重要であることを検証する。
特に、重量が減ると、BCは、ValueDiceのように専門家のパフォーマンスとほぼ一致します。
最初の2つの主張は、ValueDiceの優れたオフラインパフォーマンスを説明するものである。
第3に、専門家の軌道がサブサンプル化されている場合、ValueDiceが全く機能しないことを確認します。
その代わり、前述の成功は、専門家の軌道が完了した時に起こり、そこではValueDiceは、前述のようにうまく機能するBCと密接に関連している。
最後に,本研究がValueDiceを超えた模倣学習研究にもたらす意味について論じる。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - A Reproducibility Study of PLAID [25.86500025007641]
我々はPLAIDと論文から欠落した重要なベースラインを比較した。
ColBERTv2 を BM25 の初期プール上に再ランカとして適用することにより,低レイテンシ環境での効率効率・効率性トレードオフが向上することがわかった。
この制限を克服するために、最近提案された上位文書の隣人を引き出すように、再ランク付けする修正が提案されていることが分かりました。
論文 参考訳(メタデータ) (2024-04-23T12:46:53Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - ConserWeightive Behavioral Cloning for Reliable Offline Reinforcement
Learning [27.322942155582687]
オフライン強化学習(RL)の目標は、静的なログ付きデータセットからほぼ最適なポリシを学ぶことで、高価なオンラインインタラクションをサイドステッピングすることにある。
行動クローン(BC)は、教師あり学習を通じてオフラインの軌跡を模倣することで、オフラインRLに対する簡単なソリューションを提供する。
オフラインRLにおける条件付きBCの性能を向上させるために,ConserWeightive Behavioral Cloning (CWBC)を提案する。
論文 参考訳(メタデータ) (2022-10-11T05:37:22Z) - Understanding Hindsight Goal Relabeling Requires Rethinking Divergence
Minimization [10.854471763126117]
マルチゴール強化学習(RL)の基礎技術として,隠れたゴールレバーベリングが注目されている。
そこで本研究では,このような関係を説明する目標達成のための統一的な目標を策定する。
近年のゴール条件付き行動クローニングの進歩にもかかわらず、マルチゴールQ-ラーニングは依然としてBCライクな手法より優れていることが判明した。
論文 参考訳(メタデータ) (2022-09-26T22:00:27Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - An Empirical Study of Implicit Regularization in Deep Offline RL [44.62587507925864]
3つのオフラインRLデータセットにおける有効ランクと性能の関係について検討する。
暗黙の正規化が学習力学に与える影響を説明する学習の3つの段階を同定する。
論文 参考訳(メタデータ) (2022-07-05T15:07:31Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。