論文の概要: ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards
- arxiv url: http://arxiv.org/abs/2501.14513v1
- Date: Fri, 24 Jan 2025 14:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:57:28.889358
- Title: ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards
- Title(参考訳): ABPT:部分微分型逆流を伴う時間的逆伝播の修正
- Authors: Fanxing Li, Fangyu Sun, Tianbao Zhang, Danping Zou,
- Abstract要約: 部分的に微分可能な報酬は、訓練性能を低下させるバイアス付き勾配伝播をもたらす。
本稿では,BPTTのトレーニング効率を保ちつつ,勾配バイアスを緩和する新しい手法であるABPT(Admended Backproagation-through-Time)を提案する。
ABPTは0ステップとNステップの戻り値を組み合わせ、学習したQ値関数から値勾配を利用することによりバイアスを効果的に低減する。
- 参考スコア(独自算出の注目度): 3.1986315488647588
- License:
- Abstract: Using the exact gradients of the rewards to directly optimize policy parameters via backpropagation-through-time (BPTT) enables high training performance for quadrotor tasks. However, designing a fully differentiable reward architecture is often challenging. Partially differentiable rewards will result in biased gradient propagation that degrades training performance. To overcome this limitation, we propose Amended Backpropagation-through-Time (ABPT), a novel approach that mitigates gradient bias while preserving the training efficiency of BPTT. ABPT combines 0-step and N-step returns, effectively reducing the bias by leveraging value gradients from the learned Q-value function. Additionally, it adopts entropy regularization and state initialization mechanisms to encourage exploration during training. We evaluate ABPT on four representative quadrotor flight tasks. Experimental results demonstrate that ABPT converges significantly faster and achieves higher ultimate rewards than existing learning algorithms, particularly in tasks involving partially differentiable rewards.
- Abstract(参考訳): 報酬の正確な勾配を利用して、バックプロパゲーション・スルータイム(BPTT)を介してポリシーパラメータを直接最適化することで、クォータータスクの高いトレーニング性能を実現する。
しかし、完全に差別化可能な報酬アーキテクチャを設計することは、しばしば困難である。
部分的に微分可能な報酬は、訓練性能を低下させるバイアス付き勾配伝播をもたらす。
この制限を克服するために,BPTTのトレーニング効率を保ちつつ,勾配バイアスを緩和する新しい手法であるABPT(Admended Backproagation-through-Time)を提案する。
ABPTは0ステップとNステップの戻り値を組み合わせ、学習したQ値関数から値勾配を利用することによりバイアスを効果的に低減する。
さらに、トレーニング中の探索を促進するためにエントロピー規則化と状態初期化機構を採用している。
ABPTを4つの代表的クオータ飛行タスクで評価する。
実験の結果、ABPTは既存の学習アルゴリズム、特に部分的に微分可能な報酬を含むタスクにおいて、はるかに早く収束し、最終的な報酬を達成することが示された。
関連論文リスト
- SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks [0.0]
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T10:22:30Z) - Fast and Unified Path Gradient Estimators for Normalizing Flows [5.64979077798699]
流れの正規化のための経路勾配推定器は, 変分推定のための標準推定器に比べて, ばらつきが小さい。
計算効率を大幅に向上させる高速経路勾配推定器を提案する。
我々は、いくつかの自然科学応用において、その優れた性能と分散を実証的に確立する。
論文 参考訳(メタデータ) (2024-03-23T16:21:22Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。
IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。
再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-01T11:23:44Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing
its Gradient Estimator Bias [65.13042449121411]
実際には、EPによって提供される勾配推定によるネットワークのトレーニングは、MNISTよりも難しい視覚タスクにスケールしない。
有限ヌード法に固有のEPの勾配推定のバイアスがこの現象の原因であることを示す。
これらの手法を適用し、非対称な前方および後方接続を持つアーキテクチャをトレーニングし、13.2%のテストエラーを発生させる。
論文 参考訳(メタデータ) (2020-06-06T09:36:07Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。