論文の概要: Unlearning Works Better Than You Think: Local Reinforcement-Based Selection of Auxiliary Objectives
- arxiv url: http://arxiv.org/abs/2504.14418v1
- Date: Sat, 19 Apr 2025 23:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:44:23.235135
- Title: Unlearning Works Better Than You Think: Local Reinforcement-Based Selection of Auxiliary Objectives
- Title(参考訳): ローカル強化に基づく補助対象の選択
- Authors: Abderrahim Bendahi, Adrien Fradin, Matthieu Lerasle,
- Abstract要約: 局所強化に基づく補助対象の選択(LRSAO)は、強化学習(RL)を用いて補助目的を選択する新しいアプローチである。
非単調ジャンプ関数のブラックボックス複雑性バージョンにおけるLRSAOの分析と評価を行った。
この結果から, $Theta(n2 / ell2 + n log(n))$の複雑さを実現し,大幅な改善を実現した。
- 参考スコア(独自算出の注目度): 1.1743167854433303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Local Reinforcement-Based Selection of Auxiliary Objectives (LRSAO), a novel approach that selects auxiliary objectives using reinforcement learning (RL) to support the optimization process of an evolutionary algorithm (EA) as in EA+RL framework and furthermore incorporates the ability to unlearn previously used objectives. By modifying the reward mechanism to penalize moves that do no increase the fitness value and relying on the local auxiliary objectives, LRSAO dynamically adapts its selection strategy to optimize performance according to the landscape and unlearn previous objectives when necessary. We analyze and evaluate LRSAO on the black-box complexity version of the non-monotonic Jump function, with gap parameter $\ell$, where each auxiliary objective is beneficial at specific stages of optimization. The Jump function is hard to optimize for evolutionary-based algorithms and the best-known complexity for reinforcement-based selection on Jump was $O(n^2 \log(n) / \ell)$. Our approach improves over this result to achieve a complexity of $\Theta(n^2 / \ell^2 + n \log(n))$ resulting in a significant improvement, which demonstrates the efficiency and adaptability of LRSAO, highlighting its potential to outperform traditional methods in complex optimization scenarios.
- Abstract(参考訳): 本稿では、EA+RLフレームワークのような進化的アルゴリズム(EA)の最適化プロセスを支援するために、強化学習(RL)を用いて補助的目的を選択する新しいアプローチであるLRSAOを紹介し、さらに、これまで使用されていた目的を解き放つ能力を取り入れた。
適合価値を増大させることなく、局所的な補助目標に依存しない動作を罰する報奨機構を変更することにより、LRSAOはその選択戦略を動的に適応させ、ランドスケープに応じて性能を最適化し、必要に応じて以前の目的を未学習にする。
非単調ジャンプ関数のブラックボックス複雑性バージョンにおけるLRSAOの解析と評価を行う。
Jump関数は進化的アルゴリズムの最適化が困難であり、Jump上の強化的選択の最もよく知られた複雑さは$O(n^2 \log(n) / \ell)$である。
提案手法は, LRSAOの効率性と適応性を実証し, 複雑な最適化シナリオにおいて従来の手法を上回り得る可能性を明らかにするために, $\Theta(n^2 / \ell^2 + n \log(n))$の複雑さを実現する。
関連論文リスト
- Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。
L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。
そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文 参考訳(メタデータ) (2025-03-14T14:48:12Z) - BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization [17.694852175354555]
Preference Optimization for Combinatorial Optimization (POCO) は、目的値を介してソリューションの選好を利用する訓練パラダイムである。
POCOはアーキテクチャに依存しないため、既存のNCOモデルとの統合を可能にし、最適化の原則として好みの最適化を確立する。
論文 参考訳(メタデータ) (2025-03-10T17:45:30Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Optimizing Variational Quantum Circuits Using Metaheuristic Strategies in Reinforcement Learning [2.7504809152812695]
本研究では,メタヒューリスティックアルゴリズム – Particle Swarm Optimization, Ant Colony Optimization, Tabu Search, Genetic Algorithm, Simulated Annealing, Harmony Search – の量子強化学習への統合について検討する。
5Times5$ MiniGrid Reinforcement Learning環境の評価は、すべてのアルゴリズムがほぼ最適結果をもたらすことを示している。
論文 参考訳(メタデータ) (2024-08-02T11:14:41Z) - Towards Explainable Evolution Strategies with Large Language Models [0.0]
本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合するアプローチを提案する。
再起動機構を備えた自己適応型ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートする。
LLMを使用してこれらのログを処理し、簡潔でユーザフレンドリーな要約を生成する。
論文 参考訳(メタデータ) (2024-07-11T09:28:27Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - Evolutionary Solution Adaption for Multi-Objective Metal Cutting Process
Optimization [59.45414406974091]
我々は,従来の最適化タスクから解を転送するアルゴリズムの能力を研究することのできる,システムの柔軟性のためのフレームワークを提案する。
NSGA-IIの柔軟性を2つの変種で検討し,1)2つのタスクの解を同時に最適化し,より適応性が高いと期待されるソース間の解を得る,2)活性化あるいは非活性化の異なる可能性に対応する能動的非アクティブなジェノタイプについて検討した。
その結果,標準NSGA-IIによる適応は目標目標への最適化に必要な評価回数を大幅に削減し,提案した変種は適応コストをさらに向上することがわかった。
論文 参考訳(メタデータ) (2023-05-31T12:07:50Z) - NOVAS: Non-convex Optimization via Adaptive Stochastic Search for
End-to-End Learning and Control [22.120942106939122]
本稿では,一般のニューラルネットワーク最適化操作において,適応探索をビルディングブロックとして用いることを提案する。
我々は、合成エネルギーベースの構造化タスクにおける既存の2つの代替案に対してベンチマークを行い、最適制御アプリケーションでの使用例を示す。
論文 参考訳(メタデータ) (2020-06-22T03:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。