論文の概要: Kolmogorov-Arnold Network for Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.04841v2
- Date: Mon, 19 Aug 2024 12:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:45:42.832899
- Title: Kolmogorov-Arnold Network for Online Reinforcement Learning
- Title(参考訳): オンライン強化学習のためのKolmogorov-Arnoldネットワーク
- Authors: Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya,
- Abstract要約: Kolmogorov-Arnold Networks (KANs)は、ニューラルネットワークにおけるMLP(Multi-Layer Perceptrons)の代替としての可能性を示している。
Kansはパラメータが少なく、メモリ使用量が減ったユニバーサル関数近似を提供する。
- 参考スコア(独自算出の注目度): 0.22615818641180724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kolmogorov-Arnold Networks (KANs) have shown potential as an alternative to Multi-Layer Perceptrons (MLPs) in neural networks, providing universal function approximation with fewer parameters and reduced memory usage. In this paper, we explore the use of KANs as function approximators within the Proximal Policy Optimization (PPO) algorithm. We evaluate this approach by comparing its performance to the original MLP-based PPO using the DeepMind Control Proprio Robotics benchmark. Our results indicate that the KAN-based reinforcement learning algorithm can achieve comparable performance to its MLP-based counterpart, often with fewer parameters. These findings suggest that KANs may offer a more efficient option for reinforcement learning models.
- Abstract(参考訳): Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークにおけるマルチ層パーセプトロン(MLP)の代替としての可能性を示し、パラメータの少ない普遍関数近似とメモリ使用量の削減を実現している。
本稿では,PPOアルゴリズムにおける関数近似器としてのkanの使用について検討する。
我々は、DeepMind Control Proprio Roboticsベンチマークを用いて、その性能を元のMPPベースのPPOと比較することで、このアプローチを評価した。
以上の結果から,KAをベースとした強化学習アルゴリズムは,MLPに匹敵する性能を達成できることが示唆された。
これらの結果から,kansは強化学習モデルに対して,より効率的な選択肢を提供する可能性が示唆された。
関連論文リスト
- On the expressiveness and spectral bias of KANs [17.42614039265962]
深層学習モデルであるMLP(Multi-layer perceptron)のアーキテクチャバックボーンの代替として,kanが提案されている。
カンは科学のためのAIの様々なタスクで成功しており、その経験的効率性と精度は、関数回帰、PDE解決、そして多くの科学的な問題で実証されている。
論文 参考訳(メタデータ) (2024-10-02T17:57:38Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks [43.70716358136333]
Kolmogorov-Networks (KAN) は基本的に異なる数学的枠組みに基づいている。
Kansは継続的学習シナリオの忘れなど,いくつかの大きな問題に対処している。
コンピュータビジョンにおける連続的な学習課題における感性の評価によって調査を拡大する。
論文 参考訳(メタデータ) (2024-09-20T14:49:21Z) - Kolmogorov-Arnold Networks in Low-Data Regimes: A Comparative Study with Multilayer Perceptrons [2.77390041716769]
Kolmogorov-Arnold Networks (KAN) は、ネットワークエッジ上で直接、高度に柔軟な学習可能なアクティベーション関数を使用する。
kanは学習可能なパラメータの数を大幅に増加させ、データスカース環境での有効性に対する懸念を高めます。
個別化活性化関数はパラメータの緩やかな増加だけで予測精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-09-16T16:56:08Z) - KAN v.s. MLP for Offline Reinforcement Learning [4.3621896506713185]
Kolmogorov-Arnold Networks (KAN)は、機械学習における新たなニューラルネットワークアーキテクチャである。
本稿では,オフライン強化学習のためのアクターおよび批評家ネットワークへのkanの組み入れについて検討する。
論文 参考訳(メタデータ) (2024-09-15T07:52:44Z) - Activation Space Selectable Kolmogorov-Arnold Networks [29.450377034478933]
非線形加法接続に基づくKAN(Kolmogorov-Arnold Network)はセレクト法に匹敵する性能を発揮することが証明されている。
このような可能性にもかかわらず、単一のアクティベーション関数空間を使用すると、kanの性能が低下し、関連するタスクが異なる。
この研究は、新しいAIのデータ中心設計の理解に寄与し、kanベースのネットワークアーキテクチャにおけるイノベーションの基礎となる参照を提供する。
論文 参考訳(メタデータ) (2024-08-15T11:34:05Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Kernel-Based Smoothness Analysis of Residual Networks [85.20737467304994]
ResNets(Residual Networks)は、これらの強力なモダンアーキテクチャの中でも際立っている。
本稿では,2つのモデル,すなわちResNetsが勾配よりもスムーズな傾向を示す。
論文 参考訳(メタデータ) (2020-09-21T16:32:04Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。