論文の概要: ODICE: Revealing the Mystery of Distribution Correction Estimation via
Orthogonal-gradient Update
- arxiv url: http://arxiv.org/abs/2402.00348v1
- Date: Thu, 1 Feb 2024 05:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 16:26:19.895891
- Title: ODICE: Revealing the Mystery of Distribution Correction Estimation via
Orthogonal-gradient Update
- Title(参考訳): ODICE: 直交勾配更新による分布補正推定の謎を解明する
- Authors: Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan
- Abstract要約: オフライン強化学習(RL)と模倣学習(IL)における重要な作業ラインであるDICE法について検討する。
DICEベースの手法は、オフライン学習の理想的な選択である状態-行動レベルの行動制約を課す。
真の漸進的更新を用いて値関数を学習する際には,2つの勾配項が存在する: 前方勾配(現在の状態に着想する)と後方勾配(次の状態に着想する)。
- 参考スコア(独自算出の注目度): 43.91666113724066
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we investigate the DIstribution Correction Estimation (DICE)
methods, an important line of work in offline reinforcement learning (RL) and
imitation learning (IL). DICE-based methods impose state-action-level behavior
constraint, which is an ideal choice for offline learning. However, they
typically perform much worse than current state-of-the-art (SOTA) methods that
solely use action-level behavior constraint. After revisiting DICE-based
methods, we find there exist two gradient terms when learning the value
function using true-gradient update: forward gradient (taken on the current
state) and backward gradient (taken on the next state). Using forward gradient
bears a large similarity to many offline RL methods, and thus can be regarded
as applying action-level constraint. However, directly adding the backward
gradient may degenerate or cancel out its effect if these two gradients have
conflicting directions. To resolve this issue, we propose a simple yet
effective modification that projects the backward gradient onto the normal
plane of the forward gradient, resulting in an orthogonal-gradient update, a
new learning rule for DICE-based methods. We conduct thorough theoretical
analyses and find that the projected backward gradient brings state-level
behavior regularization, which reveals the mystery of DICE-based methods: the
value learning objective does try to impose state-action-level constraint, but
needs to be used in a corrected way. Through toy examples and extensive
experiments on complex offline RL and IL tasks, we demonstrate that DICE-based
methods using orthogonal-gradient updates (O-DICE) achieve SOTA performance and
great robustness.
- Abstract(参考訳): 本研究では,オフライン強化学習 (rl) と模倣学習 (il) における重要な作業系列である分布補正推定法 (dice) について検討した。
DICEベースの手法は、オフライン学習に最適な状態レベルの動作制約を課す。
しかし、それらは通常、アクションレベルの振る舞い制約のみを使用する現在の最先端(SOTA)メソッドよりもはるかにパフォーマンスが悪い。
diceに基づく方法を再検討した結果、真勾配更新を用いて値関数を学ぶとき、2つの勾配項が存在することがわかった:前方勾配(現在の状態)と後方勾配(次の状態)である。
フォワード勾配を用いることは、多くのオフラインRL法と大きな類似性を持ち、従ってアクションレベルの制約を適用することができる。
しかし、逆勾配を直接加えると、これらの2つの勾配が矛盾する方向を持つ場合、その効果は退化またはキャンセルされる。
この問題を解決するために,直交勾配の通常の平面に後方勾配を投影し,直交勾配の更新を行い,DICEに基づく新しい学習規則を提案する。
DICEをベースとした手法のミステリーを明らかにするため,提案手法は状態レベルの制約を課そうとしているが,修正された方法で使用する必要がある。
おもちゃの例と複雑なオフラインRLおよびILタスクに関する広範な実験を通して、直交次更新(O-DICE)を用いたDICEベースの手法がSOTA性能と強靭性を実現することを示した。
関連論文リスト
- An Effective Dynamic Gradient Calibration Method for Continual Learning [11.555822066922508]
継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。
メモリ制限のため、すべての履歴データを保存できないため、破滅的な忘れの問題に直面します。
モデルの各更新ステップの勾配をキャリブレーションする有効なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-07-30T16:30:09Z) - One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文 参考訳(メタデータ) (2024-01-30T05:42:54Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - SSGD: A safe and efficient method of gradient descent [0.5099811144731619]
勾配降下法は様々な最適化問題を解く上で重要な役割を果たしている。
超勾配降下法による勾配長の隠蔽によるパラメータの更新
我々のアルゴリズムは勾配に対する攻撃に対して防御できる。
論文 参考訳(メタデータ) (2020-12-03T17:09:20Z) - Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文 参考訳(メタデータ) (2020-12-03T11:52:55Z) - Sample Efficient Reinforcement Learning with REINFORCE [10.884278019498588]
本稿では,古典的政策勾配法と広く用いられているREINFORCE推定手法について考察する。
悪い」エピソードの数を制御することによって、常にサブリニアな高い後悔の束縛を確立し、平均的後悔のグローバル収束を、アナルなサブリニアレートでほぼ確実に確立する。
これらのアルゴリズムは、よく知られたREINFORCEアルゴリズムに対して、グローバル収束とサンプル効率の最初のセットを提供し、実際にの性能をよりよく理解するのに貢献する。
論文 参考訳(メタデータ) (2020-10-22T01:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。