論文の概要: Local Reinforcement Learning with Action-Conditioned Root Mean Squared Q-Functions
- arxiv url: http://arxiv.org/abs/2510.06649v1
- Date: Wed, 08 Oct 2025 05:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.305757
- Title: Local Reinforcement Learning with Action-Conditioned Root Mean Squared Q-Functions
- Title(参考訳): アクションコンディション付きルート型Q-Functionを用いた局所強化学習
- Authors: Frank Wu, Mengye Ren,
- Abstract要約: フォワードフォワード(フォワードフォワード、英: Forward-Forward、FF)は、従来のフォワードパスとバックプロパゲーションで使用されるバックパスの代わりに、2つのフォワードパスを使用するニューラルネットワークの学習手順である。
本稿では,局所的なRLに良さ関数と動作条件を適用した新しい値推定法である,アクション条件付きルート平均2乗Q-Functions (ARQ)を提案する。
提案手法は,MinAtar および DeepMind Control Suite ベンチマークにおける最先端のローカルバックプロップフリー RL 手法と比較して,優れた性能を実現する。
- 参考スコア(独自算出の注目度): 10.407094497818436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Forward-Forward (FF) Algorithm is a recently proposed learning procedure for neural networks that employs two forward passes instead of the traditional forward and backward passes used in backpropagation. However, FF remains largely confined to supervised settings, leaving a gap at domains where learning signals can be yielded more naturally such as RL. In this work, inspired by FF's goodness function using layer activity statistics, we introduce Action-conditioned Root mean squared Q-Functions (ARQ), a novel value estimation method that applies a goodness function and action conditioning for local RL using temporal difference learning. Despite its simplicity and biological grounding, our approach achieves superior performance compared to state-of-the-art local backprop-free RL methods in the MinAtar and the DeepMind Control Suite benchmarks, while also outperforming algorithms trained with backpropagation on most tasks. Code can be found at https://github.com/agentic-learning-ai-lab/arq.
- Abstract(参考訳): フォワードフォワードアルゴリズム(フォワードフォワードアルゴリズム、英: Forward-Forward Algorithm)は、ニューラルネットワークにおいて、従来のフォワードパスとバックプロパゲーションで使用されるバックパスの代わりに2つのフォワードパスを使用する学習手順である。
しかし、FFは制御された設定に限られており、RLのような学習信号がより自然に得られる領域にギャップを残している。
本研究では,レイヤアクティビティ統計を用いたFFの良さ関数に着想を得て,時間差学習を用いた局所RLに対して,良さ関数と行動条件を適用可能な新しい値推定法であるAction-conditioned Root mean squared Q-Functions (ARQ)を導入する。
その単純さと生物学的基盤にもかかわらず、我々の手法は、MinAtarやDeepMind Control Suiteベンチマークの最先端のローカルバックプロップフリーRL手法よりも優れた性能を実現し、多くのタスクでバックプロパゲーションで訓練されたアルゴリズムよりも優れています。
コードはhttps://github.com/agentic-learning-ai-lab/arq.orgにある。
関連論文リスト
- Learning Distinguishable Representations in Deep Q-Networks for Linear Transfer [0.9558392439655014]
本稿では,状態の特徴表現間の正の相関を減少させるために,正規化項を導入する新しいQ-ラーニング手法を提案する。
転送学習性能の向上と計算オーバーヘッドの低減に本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-09-29T15:44:35Z) - Self-Contrastive Forward-Forward Algorithm [3.1361717406527667]
フォワードフォワード (FF) アルゴリズムは、レイヤーワイドの目的を最適化するためにフィードフォワード演算に依存する。
FFは、ほとんどの標準ベンチマークタスクで最先端のパフォーマンスに到達できなかった。
本稿では,この性能ギャップを解消するための競争訓練手法である,自己コントラストフォワード(SCFF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-17T22:58:20Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Selective Memory Recursive Least Squares: Recast Forgetting into Memory
in RBF Neural Network Based Real-Time Learning [2.31120983784623]
放射ベース関数ニューラルネットワーク(RBFNN)に基づくリアルタイム学習タスクでは、忘れるメカニズムが広く使用されている。
本稿では,従来の記憶機構を記憶機構に再キャストする選択記憶再帰最小二乗法(SMRLS)を提案する。
SMRLSでは、RBFNNの入力空間を有限個の分割に均等に分割し、各分割から合成されたサンプルを用いて合成目的関数を開発する。
論文 参考訳(メタデータ) (2022-11-15T05:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。