論文の概要: Agile Reinforcement Learning through Separable Neural Architecture
- arxiv url: http://arxiv.org/abs/2601.23225v1
- Date: Fri, 30 Jan 2026 17:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.595798
- Title: Agile Reinforcement Learning through Separable Neural Architecture
- Title(参考訳): 分離可能なニューラルネットワークによるアジャイル強化学習
- Authors: Rajib Mostakim, Reza T. Batley, Sourav Saha,
- Abstract要約: 本研究は, 深層強化学習のための関数近似手法であるSPANを紹介する。
SPANはサンプル効率を30-50%改善し、ベンチマーク全体の成功率をベースラインの1.3-9倍に向上させる。
- 参考スコア(独自算出の注目度): 0.8577671031243427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) is increasingly deployed in resource-constrained environments, yet the go-to function approximators - multilayer perceptrons (MLPs) - are often parameter-inefficient due to an imperfect inductive bias for the smooth structure of many value functions. This mismatch can also hinder sample efficiency and slow policy learning in this capacity-limited regime. Although model compression techniques exist, they operate post-hoc and do not improve learning efficiency. Recent spline-based separable architectures - such as Kolmogorov-Arnold Networks (KANs) - have been shown to offer parameter efficiency but are widely reported to exhibit significant computational overhead, especially at scale. In seeking to address these limitations, this work introduces SPAN (SPline-based Adaptive Networks), a novel function approximation approach to RL. SPAN adapts the low rank KHRONOS framework by integrating a learnable preprocessing layer with a separable tensor product B-spline basis. SPAN is evaluated across discrete (PPO) and high-dimensional continuous (SAC) control tasks, as well as offline settings (Minari/D4RL). Empirical results demonstrate that SPAN achieves a 30-50% improvement in sample efficiency and 1.3-9 times higher success rates across benchmarks compared to MLP baselines. Furthermore, SPAN demonstrates superior anytime performance and robustness to hyperparameter variations, suggesting it as a viable, high performance alternative for learning intrinsically efficient policies in resource-limited settings.
- Abstract(参考訳): 深部強化学習(RL)は資源制約のある環境にますます展開されているが、多くの値関数の滑らかな構造に対する不完全な帰納バイアスのため、go-to関数近似器(多層パーセプトロン(MLP))はパラメータ非効率であることが多い。
このミスマッチは、サンプル効率や政策学習の遅さを阻害する可能性がある。
モデル圧縮技術は存在するが、それらはポストホックであり、学習効率は向上しない。
Kolmogorov-Arnold Networks (KANs) のような最近のスプラインベースの分離可能なアーキテクチャはパラメータ効率を提供するが、特に大規模で計算オーバーヘッドが大きいことが広く報告されている。
これらの制限に対処するために、本研究では、新しい関数近似手法であるSPAN(SPline-based Adaptive Networks)を導入する。
SPANは、学習可能な前処理層と分離可能なテンソル積B-スプラインベースを統合することで、低ランクのKHRONOSフレームワークに適合する。
SPANは、離散(PPO)および高次元連続(SAC)制御タスク、およびオフライン設定(Minari/D4RL)で評価される。
実験の結果、SPANはサンプル効率が30~50%向上し、ベンチマーク全体の成功率もMLPベースラインに比べて1.3~9倍向上した。
さらに、SPANはハイパーパラメータの変動に対して、常に優れたパフォーマンスと堅牢性を示しており、リソース制限された設定で本質的に効率的なポリシーを学ぶための、実行可能な高性能な代替手段であることを示している。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Boosting Parameter Efficiency in LLM-Based Recommendation through Sophisticated Pruning [44.747749293948864]
この研究は、レコメンデーション品質を維持しながら効率を向上させるために刈り取りを探求する。
層内および層内プルーニングの両方を統合したよりきめ細かいプルーニング手法を提案する。
提案手法は,非埋め込みパラメータの95%以上を刈り取りながら,元のモデルの性能の88%を平均的に達成する。
論文 参考訳(メタデータ) (2025-07-09T17:26:10Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。