論文の概要: Beyond ReLU: Chebyshev-DQN for Enhanced Deep Q-Networks
- arxiv url: http://arxiv.org/abs/2508.14536v1
- Date: Wed, 20 Aug 2025 08:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.397916
- Title: Beyond ReLU: Chebyshev-DQN for Enhanced Deep Q-Networks
- Title(参考訳): Beyond ReLU: Chebyshev-DQN for Enhanced Deep Q-Networks
- Authors: Saman Yazdannik, Morteza Tayefi, Shamim Sanisales,
- Abstract要約: 本稿では,Chebyshev-DQN(Ch-DQN)という新しいアーキテクチャを紹介し,ChebyshevベースをDQNフレームワークに統合し,より効率的な特徴表現を実現する。
提案したモデルをCart-Polev1ベンチマークで評価し,標準DQNと同等数のパラメータと比較した。
その結果,Ch-DQNは高い性能を示し,ベースラインを約39%上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Deep Q-Networks (DQN) is critically dependent on the ability of its underlying neural network to accurately approximate the action-value function. Standard function approximators, such as multi-layer perceptrons, may struggle to efficiently represent the complex value landscapes inherent in many reinforcement learning problems. This paper introduces a novel architecture, the Chebyshev-DQN (Ch-DQN), which integrates a Chebyshev polynomial basis into the DQN framework to create a more effective feature representation. By leveraging the powerful function approximation properties of Chebyshev polynomials, we hypothesize that the Ch-DQN can learn more efficiently and achieve higher performance. We evaluate our proposed model on the CartPole-v1 benchmark and compare it against a standard DQN with a comparable number of parameters. Our results demonstrate that the Ch-DQN with a moderate polynomial degree (N=4) achieves significantly better asymptotic performance, outperforming the baseline by approximately 39\%. However, we also find that the choice of polynomial degree is a critical hyperparameter, as a high degree (N=8) can be detrimental to learning. This work validates the potential of using orthogonal polynomial bases in deep reinforcement learning while also highlighting the trade-offs involved in model complexity.
- Abstract(参考訳): Deep Q-Networks(DQN)のパフォーマンスは、その基盤となるニューラルネットワークがアクション値関数を正確に近似する能力に依存している。
多層パーセプトロンのような標準的な関数近似器は、多くの強化学習問題に固有の複雑な値のランドスケープを効率的に表現するのに苦労する。
本稿では,Chebyshev-DQN(Ch-DQN)という新しいアーキテクチャを導入し,Chebyshev多項式基底をDQNフレームワークに統合し,より効率的な特徴表現を実現する。
チェビシェフ多項式の強力な関数近似特性を利用することで、Ch-DQNはより効率的に学習し、より高い性能を達成することができると仮定する。
提案したモデルをCartPole-v1ベンチマークで評価し,標準DQNと同等数のパラメータで比較した。
以上の結果から,中等度多項式次数 (N=4) のCh-DQNは著明な漸近性を示し,ベースラインを約39%上回った。
しかし、多項式次数の選択は、高い次数 (N=8) が学習に有害であるので、臨界ハイパーパラメータであることが分かる。
本研究は, モデル複雑性に関わるトレードオフを強調しつつ, 直交多項式基底を深層強化学習に用いる可能性を検証する。
関連論文リスト
- Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Degree-Optimized Cumulative Polynomial Kolmogorov-Arnold Networks [0.0]
Kolmogorov-Arnold Network (CP-KAN) はチェビシェフ基底関数と2次非制約バイナリ最適化(QUBO)を組み合わせたニューラルネットワークである。
コントリビューションでは、次数選択問題をQUBOタスクとして再構成し、複雑性を$O($N)から1層当たりの最適化ステップに短縮する。
このアーキテクチャは、限られたデータを持つ回帰タスクにおいてよく機能し、入力スケールと自然な正規化特性を基礎として、優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-21T07:59:12Z) - Universal Approximation Theorem of Deep Q-Networks [2.1756081703276]
我々は制御とFBSDE(Forward-Backward Differential Equations)を通してDeep Q-Networks(DQN)の分析を行う。
DQN は任意の精度と高い確率でコンパクト集合上の最適Q-函数を近似できることを示す。
この作業は、深い強化学習とコントロールをブリッジし、継続的設定でDQNに関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-04T22:57:33Z) - Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation [0.0]
本稿では,Chebyshev Kolmogorov-Arnoldの定理に触発された新しいニューラルネットワークアーキテクチャであるChebyshev Kolmogorov-Arnold Networkについて述べる。
ネットワークのエッジ上でChebyshevによってパラメータ化された学習可能な関数を利用することで、Chebyshev Kansは関数近似タスクの柔軟性、効率、解釈性を向上させる。
論文 参考訳(メタデータ) (2024-05-12T07:55:43Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Regularization of polynomial networks for image recognition [78.4786845859205]
PN(Polynomial Networks)は、将来性があり、解釈可能性も向上した代替手法として登場した。
6つのベンチマークでResNetのパフォーマンスに到達できるPNのクラスを紹介します。
論文 参考訳(メタデータ) (2023-03-24T10:05:22Z) - Expressibility-Enhancing Strategies for Quantum Neural Networks [0.0]
入力データを予測にマップするために、量子ニューラルネットワーク(QNN)をトレーニングすることができる。
多くの研究はQNNの表現力を理論的に分析することに重点を置いている。
本稿では,QNNに対する4つの表現可能性向上戦略を提案する。
論文 参考訳(メタデータ) (2022-11-23T02:51:27Z) - Faster Deep Reinforcement Learning with Slower Online Network [90.34900072689618]
DQNとRainbowという2つの人気のあるディープ強化学習アルゴリズムに、オンラインネットワークをターゲットネットワークの近くに留まらせるインセンティブを与えるアップデートを与えました。
その結果、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のエージェントよりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-12-10T22:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。