Fugu-MT 論文翻訳(概要): KAN v.s. MLP for Offline Reinforcement Learning

論文の概要: KAN v.s. MLP for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.09653v1
Date: Sun, 15 Sep 2024 07:52:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 19:48:24.065490
Title: KAN v.s. MLP for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のためのKA v. S. MLP
Authors: Haihong Guo, Fengxin Li, Jiao Li, Hongyan Liu,
Abstract要約: Kolmogorov-Arnold Networks (KAN)は、機械学習における新たなニューラルネットワークアーキテクチャである。本稿では,オフライン強化学習のためのアクターおよび批評家ネットワークへのkanの組み入れについて検討する。
参考スコア（独自算出の注目度）: 4.3621896506713185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Kolmogorov-Arnold Networks (KAN) is an emerging neural network architecture in machine learning. It has greatly interested the research community about whether KAN can be a promising alternative of the commonly used Multi-Layer Perceptions (MLP). Experiments in various fields demonstrated that KAN-based machine learning can achieve comparable if not better performance than MLP-based methods, but with much smaller parameter scales and are more explainable. In this paper, we explore the incorporation of KAN into the actor and critic networks for offline reinforcement learning (RL). We evaluated the performance, parameter scales, and training efficiency of various KAN and MLP based conservative Q-learning (CQL) on the the classical D4RL benchmark for offline RL. Our study demonstrates that KAN can achieve performance close to the commonly used MLP with significantly fewer parameters. This provides us an option to choose the base networks according to the requirements of the offline RL tasks.
Abstract（参考訳）: Kolmogorov-Arnold Networks (KAN)は、機械学習における新たなニューラルネットワークアーキテクチャである。 KanがMLP(Multi-Layer Perceptions)の有望な代替品になるかどうか、研究コミュニティに大きな関心を寄せている。様々な分野の実験により、KANSAベースの機械学習は、MLPベースの手法よりも優れた性能を達成できるが、パラメータのスケールがはるかに小さく、より説明しやすいことを実証した。本稿では,オフライン強化学習(RL)のためのアクターおよび批評家ネットワークへのkanの組み入れについて検討する。オフラインRLのための古典的D4RLベンチマークを用いて,様々なkanおよびMLPに基づく保守的Q-ラーニング(CQL)の性能,パラメータスケール,トレーニング効率を評価した。本研究により,KAN はパラメータが大幅に少ない MLP に近い性能が得られることを示す。これにより、オフラインのRLタスクの要求に応じてベースネットワークを選択するオプションが提供されます。

関連論文リスト

Improving Memory Efficiency for Training KANs via Meta Learning [55.24089119864207]
我々は,MetaKANと呼ばれる,より小さなメタラーナーを用いて,kansの重みを生成することを提案する。 KansとMetaKanをエンドツーエンドの差別化方法でトレーニングすることで、MetaKanは同等あるいはそれ以上のパフォーマンスを達成できる。
論文参考訳（メタデータ） (2025-06-09T08:38:26Z)
Enhancing Federated Learning with Kolmogorov-Arnold Networks: A Comparative Study Across Diverse Aggregation Strategies [0.24578723416255752]
Kolmogorov-Arnold Networks (KAN) は複雑な非線形関係をモデル化する有望な能力を示している。 Kansは精度、安定性、収束効率の点で、Multilayer Perceptronsを一貫して上回っている。
論文参考訳（メタデータ） (2025-05-12T14:56:27Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。本研究はRLVRの現状を批判的に考察する。現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
PRKAN: Parameter-Reduced Kolmogorov-Arnold Networks [47.947045173329315]
Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークアーキテクチャの革新を象徴している。 Kansは、CNN、Recurrent Reduced Networks(RNN)、Transformerなどのモデルで、MLP(Multi-Layer Perceptrons)に代わる魅力的な代替手段を提供する。本稿では,階層内のパラメータ数を削減するために複数の手法を用いたPRKANを導入し,ニューラルM層に匹敵する手法を提案する。
論文参考訳（メタデータ） (2025-01-13T03:07:39Z)
PowerMLP: An Efficient Version of KAN [10.411788782126091]
Kolmogorov-Arnold Network (KAN) は、関数フィッティングやPDE解決といったいくつかのタスクにおいて高い精度で知られている新しいネットワークアーキテクチャである。 Kanの優れた計算能力は、コルモゴロフ・アルノルド表現と学習可能なスプライン関数から生じる。 PowerMLPは、様々なタスクにおいてkanの約40倍の精度とトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-12-18T07:42:34Z)
On the expressiveness and spectral bias of KANs [17.42614039265962]
深層学習モデルであるMLP(Multi-layer perceptron)のアーキテクチャバックボーンの代替として,kanが提案されている。カンは科学のためのAIの様々なタスクで成功しており、その経験的効率性と精度は、関数回帰、PDE解決、そして多くの科学的な問題で実証されている。
論文参考訳（メタデータ） (2024-10-02T17:57:38Z)
A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks [43.70716358136333]
Kolmogorov-Networks (KAN) は基本的に異なる数学的枠組みに基づいている。 Kansは継続的学習シナリオの忘れなど,いくつかの大きな問題に対処している。コンピュータビジョンにおける連続的な学習課題における感性の評価によって調査を拡大する。
論文参考訳（メタデータ） (2024-09-20T14:49:21Z)
Activation Space Selectable Kolmogorov-Arnold Networks [29.450377034478933]
非線形加法接続に基づくKAN(Kolmogorov-Arnold Network)はセレクト法に匹敵する性能を発揮することが証明されている。このような可能性にもかかわらず、単一のアクティベーション関数空間を使用すると、kanの性能が低下し、関連するタスクが異なる。この研究は、新しいAIのデータ中心設計の理解に寄与し、kanベースのネットワークアーキテクチャにおけるイノベーションの基礎となる参照を提供する。
論文参考訳（メタデータ） (2024-08-15T11:34:05Z)
Kolmogorov-Arnold Network for Online Reinforcement Learning [0.22615818641180724]
Kolmogorov-Arnold Networks (KANs)は、ニューラルネットワークにおけるMLP(Multi-Layer Perceptrons)の代替としての可能性を示している。 Kansはパラメータが少なく、メモリ使用量が減ったユニバーサル関数近似を提供する。
論文参考訳（メタデータ） (2024-08-09T03:32:37Z)
Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文参考訳（メタデータ） (2024-05-24T09:33:47Z)
Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文参考訳（メタデータ） (2023-09-04T09:34:33Z)
Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文参考訳（メタデータ） (2023-04-03T17:59:58Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)
MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文参考訳（メタデータ） (2020-05-12T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。