Fugu-MT 論文翻訳(概要): Reinforcement learning based parameters adaption method for particle swarm optimization

論文の概要: Reinforcement learning based parameters adaption method for particle swarm optimization

arxiv url: http://arxiv.org/abs/2206.00835v1
Date: Thu, 2 Jun 2022 02:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-26 14:43:40.246433
Title: Reinforcement learning based parameters adaption method for particle swarm optimization
Title（参考訳）: 粒子群最適化のための強化学習に基づくパラメータ適応法
Authors: Yin ShiYuan
Abstract要約: 本稿では,PSOの収束性を高めるため,強化学習に基づくオンラインパラメータ適応法(RLAM)を開発した。 CEC 2013の28のベンチマーク関数に関する実験は、他のオンライン適応法やPSOの変種と比較する際に行われる。以上の結果から,提案したRLAMは効率的かつ有効であり,提案したRLPSOは最先端のPSOよりも優れていることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Particle swarm optimization (PSO) is a well-known optimization algorithm that shows good performance in solving different optimization problems. However, PSO usually suffers from slow convergence. In this article, a reinforcement learning-based online parameters adaption method(RLAM) is developed to enhance PSO in convergence by designing a network to control the coefficients of PSO. Moreover, based on RLAM, a new RLPSO is designed. In order to investigate the performance of RLAM and RLPSO, experiments on 28 CEC 2013 benchmark functions are carried out when comparing with other online adaption method and PSO variants. The reported computational results show that the proposed RLAM is efficient and effictive and that the the proposed RLPSO is more superior compared with several state-of-the-art PSO variants.
Abstract（参考訳）: Particle Swarm Optimization (PSO) は、様々な最適化問題の解法において優れた性能を示す最適化アルゴリズムである。しかし、psoは通常、収束が遅い。本稿では、PSOの係数を制御するネットワークを設計し、PSOの収束性を高めるために強化学習に基づくオンラインパラメータ適応法(RLAM)を開発した。さらに、RLAMに基づいて、新しいRLPSOを設計する。 RLAM と RLPSO の性能を調べるため,他のオンライン適応法や PSO 変種と比較して,28 CEC 2013 ベンチマーク関数の実験を行った。報告された計算結果から,提案したRLAMは効率的かつ有効であり,提案したRLPSOは最先端のPSOよりも優れていることが示された。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
An Efficient On-Policy Deep Learning Framework for Stochastic Optimal Control [14.832859803172846]
本稿では、最適制御(SOC)問題を解決するための新しいオン政治アルゴリズムを提案する。ギルサノフの定理を利用することで、微分方程式や随伴問題解による高価なバックプロパゲーションを伴わずに、SOC対象の政治的勾配を直接計算する。実験により,従来の手法に比べて計算速度とメモリ効率が大幅に向上した。
論文参考訳（メタデータ） (2024-10-07T16:16:53Z)
Kolmogorov-Arnold Network for Online Reinforcement Learning [0.22615818641180724]
Kolmogorov-Arnold Networks (KANs)は、ニューラルネットワークにおけるMLP(Multi-Layer Perceptrons)の代替としての可能性を示している。 Kansはパラメータが少なく、メモリ使用量が減ったユニバーサル関数近似を提供する。
論文参考訳（メタデータ） (2024-08-09T03:32:37Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Orthogonally Initiated Particle Swarm Optimization with Advanced Mutation for Real-Parameter Optimization [0.04096453902709291]
本稿では,多角形PSO(orthogonal PSO with Mutation,OPSO-m)と呼ばれる拡張粒子群(PSO)を紹介する。 PSOのための改良された初期Swarmを育むための配列ベースの学習手法を提案し、Swarmベースの最適化アルゴリズムの適応性を大幅に向上させた。この記事はさらに、人口を正規グループとエリートグループに分割する、アーカイブベースの自己適応学習戦略を提示する。
論文参考訳（メタデータ） (2024-05-21T07:16:20Z)
Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文参考訳（メタデータ） (2024-02-05T02:54:50Z)
Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-04T01:47:37Z)
A reinforcement learning strategy for p-adaptation in high order solvers [0.0]
強化学習(Reinforcement Learning, RL)は、意思決定プロセスを自動化するための有望なアプローチである。本稿では,高次解法を用いる場合の計算メッシュの順序を最適化するためのRL手法の適用について検討する。
論文参考訳（メタデータ） (2023-06-14T07:01:31Z)
An Optimization-based Deep Equilibrium Model for Hyperspectral Image Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文参考訳（メタデータ） (2023-06-10T08:25:16Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
RSO: A Novel Reinforced Swarm Optimization Algorithm for Feature Selection [0.0]
本稿では,Reinforced Swarm Optimization (RSO) という特徴選択アルゴリズムを提案する。このアルゴリズムは、広く使われているBee Swarm Optimization (BSO)アルゴリズムとReinforcement Learning (RL)アルゴリズムを組み込んで、優れた検索エージェントの報酬を最大化し、劣悪なエージェントを罰する。提案手法は、バランスの取れたデータと不均衡なデータの完全なブレンドを含む、広く知られている25のUCIデータセットで評価される。
論文参考訳（メタデータ） (2021-07-29T17:38:04Z)
An Improved LSHADE-RSP Algorithm with the Cauchy Perturbation: iLSHADE-RSP [9.777183117452235]
この手法は、コーシー分布の長い尾を持つ性質を採用することにより、探索を向上させることができる。従来の手法と比較して,提案手法はジャンプ率に基づいて,突然変異ベクトルの代わりにターゲットベクトルを摂動する。改良されたLSHADE-RSPの最適化性能を評価するために、30の異なる難解な最適化問題を用いている。
論文参考訳（メタデータ） (2020-06-04T00:03:34Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。