論文の概要: Balancing Expressivity and Robustness: Constrained Rational Activations for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.14736v1
- Date: Sat, 19 Jul 2025 19:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.025945
- Title: Balancing Expressivity and Robustness: Constrained Rational Activations for Reinforcement Learning
- Title(参考訳): 表現性とロバストさのバランスをとる:強化学習のための制約付き合理的活動
- Authors: Rafał Surdej, Michał Bortkiewicz, Alex Lewandowski, Mateusz Ostaszewski, Clare Lyle,
- Abstract要約: 強化学習と継続学習の両方において、訓練可能な合理的なアクティベーションについて検討する。
我々の主な成果は、合理的なアクティベーションにおける表現性と可塑性のトレードオフを示すことである。
本研究は, 動的非定常環境におけるロバストかつトレーニング可能なアクティベーションに対して, 実用的な設計原理を提供する。
- 参考スコア(独自算出の注目度): 9.120944934920141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trainable activation functions, whose parameters are optimized alongside network weights, offer increased expressivity compared to fixed activation functions. Specifically, trainable activation functions defined as ratios of polynomials (rational functions) have been proposed to enhance plasticity in reinforcement learning. However, their impact on training stability remains unclear. In this work, we study trainable rational activations in both reinforcement and continual learning settings. We find that while their flexibility enhances adaptability, it can also introduce instability, leading to overestimation in RL and feature collapse in longer continual learning scenarios. Our main result is demonstrating a trade-off between expressivity and plasticity in rational activations. To address this, we propose a constrained variant that structurally limits excessive output scaling while preserving adaptability. Experiments across MetaWorld and DeepMind Control Suite (DMC) environments show that our approach improves training stability and performance. In continual learning benchmarks, including MNIST with reshuffled labels and Split CIFAR-100, we reveal how different constraints affect the balance between expressivity and long-term retention. While preliminary experiments in discrete action domains (e.g., Atari) did not show similar instability, this suggests that the trade-off is particularly relevant for continuous control. Together, our findings provide actionable design principles for robust and adaptable trainable activations in dynamic, non-stationary environments. Code available at: https://github.com/special114/rl_rational_plasticity.
- Abstract(参考訳): トレーニング可能なアクティベーション関数は、パラメータがネットワーク重みと共に最適化されているため、固定されたアクティベーション関数よりも表現性が向上する。
具体的には、強化学習における可塑性を高めるために、多項式(有理関数)の比として定義される訓練可能な活性化関数が提案されている。
しかし、訓練の安定性への影響はいまだ不明である。
本研究では,強化学習と継続学習の両方において,訓練可能な合理的なアクティベーションについて検討する。
柔軟性は適応性を高めるが、不安定性を導入し、RLが過大評価され、長い連続的な学習シナリオで機能が崩壊する可能性がある。
我々の主な成果は、合理的なアクティベーションにおける表現性と可塑性のトレードオフを示すことである。
適応性を保ちながら過度な出力スケーリングを構造的に制限する制約付き変種を提案する。
MetaWorldとDeepMind Control Suite(DMC)環境における実験は、我々のアプローチがトレーニングの安定性と性能を改善することを示している。
ラベルをリシャッフルした MNIST や Split CIFAR-100 などを含む連続学習ベンチマークでは,表現性と長期保持のバランスに異なる制約がどう影響するかを明らかにする。
離散的な作用領域(例えば、アタリ)における予備的な実験は、同様の不安定性は示さなかったが、これは、トレードオフが特に連続的な制御に関係していることを示唆している。
本研究は,動的かつ非定常な環境下での堅牢かつ適応的なトレーニング可能なアクティベーションに対して,実用的な設計原理を提供するものである。
コードは、https://github.com/special114/rl_rational_plasticityで公開されている。
関連論文リスト
- Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Adapting to Fragmented and Evolving Data: A Fisher Information Perspective [0.0]
FADEは動的環境下での堅牢な学習のための軽量フレームワークである。
フィッシャー情報幾何学に固定されたシフトアウェアの正規化機構を採用している。
FADEは固定メモリでオンラインで動作し、ターゲットラベルにアクセスできない。
論文 参考訳(メタデータ) (2025-07-25T06:50:09Z) - Activation Control for Efficiently Eliciting Long Chain-of-thought Ability of Language Models [45.938663388013445]
本報告では,最後の数層における高影響活性化の小さなセットが,長大な推論特性を支配していることを示す。
これらのアクティベーションを増幅し、"待機"トークンを挿入することで、トレーニングなしで長いCoT機能を呼び出すことができます。
論文 参考訳(メタデータ) (2025-05-23T10:07:18Z) - Focus On This, Not That! Steering LLMs with Adaptive Feature Specification [48.27684487597968]
Focus Instruction Tuning (FIT)は、大きな言語モデルをトレーニングして、特定の機能に注目しながら、他の機能を無視して応答を条件付けする。
我々は,FITが推論時に行動のステアリングに成功したこと,(ii)コアタスク信号の増幅による堅牢性の向上,(iii)人口統計特性の抑制による社会的偏見の軽減,(iv)分布シフト下での一般化,および以前には見つからなかった焦点特徴の緩和を実証した。
論文 参考訳(メタデータ) (2024-10-30T12:01:48Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Adaptive Rational Activations to Boost Deep Reinforcement Learning [68.10769262901003]
我々は、合理的が適応可能なアクティベーション機能に適合する理由と、ニューラルネットワークへの含意が重要である理由を動機付けている。
人気アルゴリズムに(繰り返しの)アクティベーションを組み込むことで,アタリゲームにおいて一貫した改善がもたらされることを実証する。
論文 参考訳(メタデータ) (2021-02-18T14:53:12Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。