Fugu-MT 論文翻訳(概要): Kolmogorov-Arnold Network for Online Reinforcement Learning

論文の概要: Kolmogorov-Arnold Network for Online Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.04841v3
Date: Sat, 31 Aug 2024 21:01:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 16:51:50.651398
Title: Kolmogorov-Arnold Network for Online Reinforcement Learning
Title（参考訳）: オンライン強化学習のためのKolmogorov-Arnoldネットワーク
Authors: Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya,
Abstract要約: Kolmogorov-Arnold Networks (KANs)は、ニューラルネットワークにおけるMLP(Multi-Layer Perceptrons)の代替としての可能性を示している。 Kansはパラメータが少なく、メモリ使用量が減ったユニバーサル関数近似を提供する。
参考スコア（独自算出の注目度）: 0.22615818641180724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Kolmogorov-Arnold Networks (KANs) have shown potential as an alternative to Multi-Layer Perceptrons (MLPs) in neural networks, providing universal function approximation with fewer parameters and reduced memory usage. In this paper, we explore the use of KANs as function approximators within the Proximal Policy Optimization (PPO) algorithm. We evaluate this approach by comparing its performance to the original MLP-based PPO using the DeepMind Control Proprio Robotics benchmark. Our results indicate that the KAN-based reinforcement learning algorithm can achieve comparable performance to its MLP-based counterpart, often with fewer parameters. These findings suggest that KANs may offer a more efficient option for reinforcement learning models.
Abstract（参考訳）: Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークにおけるマルチ層パーセプトロン(MLP)の代替としての可能性を示し、パラメータの少ない普遍関数近似とメモリ使用量の削減を実現している。本稿では,PPOアルゴリズムにおける関数近似器としてのkanの使用について検討する。我々は、DeepMind Control Proprio Roboticsベンチマークを用いて、その性能を元のMPPベースのPPOと比較することで、このアプローチを評価した。以上の結果から,KAをベースとした強化学習アルゴリズムは,MLPに匹敵する性能を達成できることが示唆された。これらの結果から,kansは強化学習モデルに対して,より効率的な選択肢を提供する可能性が示唆された。

関連論文リスト

Kolmogorov Arnold Networks and Multi-Layer Perceptrons: A Paradigm Shift in Neural Modelling [1.6998720690708842]
Kolmogorov-Arnold Networks(KAN)とMulti-Layer Perceptrons(MLP)の総合的比較分析を行った。 Kansはスプラインベースのアクティベーション機能とグリッドベースの構造を利用し、従来のニューラルネットワークフレームワークと比較して変革的なアプローチを提供する。本研究は,先進的なインテリジェントシステムにおけるkansの変換能力について述べる。
論文参考訳（メタデータ） (2026-01-15T16:26:49Z)
Improving Memory Efficiency for Training KANs via Meta Learning [55.24089119864207]
我々は,MetaKANと呼ばれる,より小さなメタラーナーを用いて,kansの重みを生成することを提案する。 KansとMetaKanをエンドツーエンドの差別化方法でトレーニングすることで、MetaKanは同等あるいはそれ以上のパフォーマンスを達成できる。
論文参考訳（メタデータ） (2025-06-09T08:38:26Z)
PRKAN: Parameter-Reduced Kolmogorov-Arnold Networks [47.947045173329315]
Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークアーキテクチャの革新を象徴している。 Kansは、CNN、Recurrent Reduced Networks(RNN)、Transformerなどのモデルで、MLP(Multi-Layer Perceptrons)に代わる魅力的な代替手段を提供する。本稿では,階層内のパラメータ数を削減するために複数の手法を用いたPRKANを導入し,ニューラルM層に匹敵する手法を提案する。
論文参考訳（メタデータ） (2025-01-13T03:07:39Z)
On the expressiveness and spectral bias of KANs [17.42614039265962]
深層学習モデルであるMLP(Multi-layer perceptron)のアーキテクチャバックボーンの代替として,kanが提案されている。カンは科学のためのAIの様々なタスクで成功しており、その経験的効率性と精度は、関数回帰、PDE解決、そして多くの科学的な問題で実証されている。
論文参考訳（メタデータ） (2024-10-02T17:57:38Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks [43.70716358136333]
Kolmogorov-Networks (KAN) は基本的に異なる数学的枠組みに基づいている。 Kansは継続的学習シナリオの忘れなど,いくつかの大きな問題に対処している。コンピュータビジョンにおける連続的な学習課題における感性の評価によって調査を拡大する。
論文参考訳（メタデータ） (2024-09-20T14:49:21Z)
Kolmogorov-Arnold Networks in Low-Data Regimes: A Comparative Study with Multilayer Perceptrons [2.77390041716769]
Kolmogorov-Arnold Networks (KAN) は、ネットワークエッジ上で直接、高度に柔軟な学習可能なアクティベーション関数を使用する。 kanは学習可能なパラメータの数を大幅に増加させ、データスカース環境での有効性に対する懸念を高めます。個別化活性化関数はパラメータの緩やかな増加だけで予測精度が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-09-16T16:56:08Z)
KAN v.s. MLP for Offline Reinforcement Learning [4.3621896506713185]
Kolmogorov-Arnold Networks (KAN)は、機械学習における新たなニューラルネットワークアーキテクチャである。本稿では,オフライン強化学習のためのアクターおよび批評家ネットワークへのkanの組み入れについて検討する。
論文参考訳（メタデータ） (2024-09-15T07:52:44Z)
Activation Space Selectable Kolmogorov-Arnold Networks [29.450377034478933]
非線形加法接続に基づくKAN(Kolmogorov-Arnold Network)はセレクト法に匹敵する性能を発揮することが証明されている。このような可能性にもかかわらず、単一のアクティベーション関数空間を使用すると、kanの性能が低下し、関連するタスクが異なる。この研究は、新しいAIのデータ中心設計の理解に寄与し、kanベースのネットワークアーキテクチャにおけるイノベーションの基礎となる参照を提供する。
論文参考訳（メタデータ） (2024-08-15T11:34:05Z)
Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文参考訳（メタデータ） (2023-11-05T12:03:58Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Kernel-Based Smoothness Analysis of Residual Networks [85.20737467304994]
ResNets(Residual Networks)は、これらの強力なモダンアーキテクチャの中でも際立っている。本稿では,2つのモデル,すなわちResNetsが勾配よりもスムーズな傾向を示す。
論文参考訳（メタデータ） (2020-09-21T16:32:04Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。