論文の概要: Local Pairwise Distance Matching for Backpropagation-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.11367v1
- Date: Tue, 15 Jul 2025 14:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.156819
- Title: Local Pairwise Distance Matching for Backpropagation-Free Reinforcement Learning
- Title(参考訳): バックプロパゲーションフリー強化学習のための局所的ペアワイズ距離マッチング
- Authors: Daniel Tanneberg,
- Abstract要約: 強化学習(RL)を用いたニューラルネットワークのトレーニングは一般的にバックプロパゲーション(BP)に依存している
BPは後続の更新のためにフォワードパスからのアクティベーションを格納する必要がある。
本稿では、RL設定において、前部パス中の局所信号を用いてニューラルネットワークの各層をトレーニングする新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.9065034043031668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training neural networks with reinforcement learning (RL) typically relies on backpropagation (BP), necessitating storage of activations from the forward pass for subsequent backward updates. Furthermore, backpropagating error signals through multiple layers often leads to vanishing or exploding gradients, which can degrade learning performance and stability. We propose a novel approach that trains each layer of the neural network using local signals during the forward pass in RL settings. Our approach introduces local, layer-wise losses leveraging the principle of matching pairwise distances from multi-dimensional scaling, enhanced with optional reward-driven guidance. This method allows each hidden layer to be trained using local signals computed during forward propagation, thus eliminating the need for backward passes and storing intermediate activations. Our experiments, conducted with policy gradient methods across common RL benchmarks, demonstrate that this backpropagation-free method achieves competitive performance compared to their classical BP-based counterpart. Additionally, the proposed method enhances stability and consistency within and across runs, and improves performance especially in challenging environments.
- Abstract(参考訳): 強化学習(RL)を用いたトレーニングニューラルネットワークは通常、後方更新のために前方パスからのアクティベーションの保存を必要とするバックプロパゲーション(BP)に依存している。
さらに、複数のレイヤを通したエラー信号のバックプロパゲートは、学習性能と安定性を低下させる可能性のある、消滅または爆発的な勾配につながることが多い。
本稿では、RL設定において、前部パス中の局所信号を用いてニューラルネットワークの各層をトレーニングする新しいアプローチを提案する。
提案手法は,多次元スケーリングからペアワイズ距離の原理を活かした局所的・層的損失を導入し,任意の報酬駆動誘導で拡張する。
この方法では、各隠蔽層を前方伝播中に計算された局所信号を用いて訓練することができ、後方通過や中間活性化の保存が不要になる。
提案手法は,一般のRLベンチマークにまたがるポリシー勾配法を用いて行った実験により,従来のBP方式と比較して,このバックプロパゲーションフリーな手法が競合性能を達成できることを実証した。
さらに,本手法は走行中および走行中における安定性と整合性を向上し,特に難易度の高い環境での性能を向上させる。
関連論文リスト
- Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks [69.2642802272367]
スパイクニューラルネットワーク(SNN)を用いた脳誘発ニューロモルフィックコンピューティングは、有望なエネルギー効率の計算手法である。
最近の手法では、空間的および時間的バックプロパゲーション(BP)を利用しており、ニューロモルフィックの性質に固執していない。
オンライン擬似ゼロオーダートレーニング(OPZO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T12:09:00Z) - Towards Interpretable Deep Local Learning with Successive Gradient Reconciliation [70.43845294145714]
グローバルバックプロパゲーション(BP)に対するニューラルネットワークトレーニングの信頼性の回復が、注目すべき研究トピックとして浮上している。
本稿では,隣接モジュール間の勾配調整を連続的に調整する局所的学習戦略を提案する。
提案手法はローカルBPとBPフリー設定の両方に統合できる。
論文 参考訳(メタデータ) (2024-06-07T19:10:31Z) - Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。
時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。
BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。
BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-14T21:15:29Z) - Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Low-Variance Forward Gradients using Direct Feedback Alignment and
Momentum [0.0]
本稿では,アクティビティ・パータード・フォワード・グラディエントと直接フィードバックアライメントとモーメントを組み合わせたアルゴリズムを提案する。
我々のアプローチは、バックプロパゲーションの他のローカル代替手段と比較して、より高速な収束と性能の向上を可能にします。
論文 参考訳(メタデータ) (2022-12-14T15:30:56Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。
BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。
本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T00:32:55Z) - A Practical Layer-Parallel Training Algorithm for Residual Networks [41.267919563145604]
ResNetのトレーニングのための勾配ベースのアルゴリズムは、通常、入力データの前方パスを必要とし、続いてパラメータを更新するために目的の勾配をバックプロパゲートする。
本稿では,データ拡張を実現するための新しいシリアル並列ハイブリッドトレーニング戦略と,通信コスト削減のためのダウンサンプリングフィルタを提案する。
論文 参考訳(メタデータ) (2020-09-03T06:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。