論文の概要: Instance Selection for Dynamic Algorithm Configuration with Reinforcement Learning: Improving Generalization
- arxiv url: http://arxiv.org/abs/2407.13513v1
- Date: Thu, 18 Jul 2024 13:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:10:55.476451
- Title: Instance Selection for Dynamic Algorithm Configuration with Reinforcement Learning: Improving Generalization
- Title(参考訳): 強化学習による動的アルゴリズム構成のためのインスタンス選択:一般化の改善
- Authors: Carolin Benjamins, Gjorgjina Cenikj, Ana Nikolikj, Aditya Mohan, Tome Eftimov, Marius Lindauer,
- Abstract要約: 動的アルゴリズム構成(DAC)は、多様なインスタンスに対してアルゴリズムのハイパーパラメータを動的に設定するという課題に対処する。
Deep Reinforcement Learning (RL)でトレーニングされたエージェントは、そのような設定を解決するための経路を提供する。
我々は、過剰表現を克服するためにトレーニングインスタンスの代表的なサブセットを選択して、このサブセット上のエージェントを再訓練し、一般化性能を向上させることで、この問題を軽減するための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 16.49696895887536
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dynamic Algorithm Configuration (DAC) addresses the challenge of dynamically setting hyperparameters of an algorithm for a diverse set of instances rather than focusing solely on individual tasks. Agents trained with Deep Reinforcement Learning (RL) offer a pathway to solve such settings. However, the limited generalization performance of these agents has significantly hindered the application in DAC. Our hypothesis is that a potential bias in the training instances limits generalization capabilities. We take a step towards mitigating this by selecting a representative subset of training instances to overcome overrepresentation and then retraining the agent on this subset to improve its generalization performance. For constructing the meta-features for the subset selection, we particularly account for the dynamic nature of the RL agent by computing time series features on trajectories of actions and rewards generated by the agent's interaction with the environment. Through empirical evaluations on the Sigmoid and CMA-ES benchmarks from the standard benchmark library for DAC, called DACBench, we discuss the potentials of our selection technique compared to training on the entire instance set. Our results highlight the efficacy of instance selection in refining DAC policies for diverse instance spaces.
- Abstract(参考訳): 動的アルゴリズム構成(DAC)は、個々のタスクのみに焦点を当てるのではなく、多様なインスタンスに対してアルゴリズムのハイパーパラメータを動的に設定するという課題に対処する。
Deep Reinforcement Learning (RL)でトレーニングされたエージェントは、そのような設定を解決するための経路を提供する。
しかし、これらのエージェントの限定的な一般化性能は、DACの応用を著しく妨げている。
我々の仮説では、トレーニングインスタンスの潜在的なバイアスは一般化能力を制限している。
我々は、過剰表現を克服するためにトレーニングインスタンスの代表的なサブセットを選択し、このサブセット上のエージェントを再訓練して、一般化性能を向上させることで、この問題を軽減するための一歩を踏み出した。
サブセット選択のためのメタ機能の構築には, エージェントが環境との相互作用によって生じる行動や報酬の軌跡に関する時系列特徴を計算することにより, RLエージェントの動的性質を特に考慮する。
DACBenchと呼ばれる標準ベンチマークライブラリのSigmoidおよびCMA-ESベンチマークの実証評価を通じて、インスタンス全体のトレーニングと比較して、選択手法の可能性について議論する。
本結果は,多種多様なインスタンス空間に対するDACポリシーの精錬におけるインスタンス選択の有効性を強調した。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。
本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T11:55:07Z) - Multi-agent Dynamic Algorithm Configuration [29.065510165544865]
自動アルゴリズム構成により、ユーザは面倒で試行錯誤的なチューニングタスクを省くことができる。
本稿では,複雑なアルゴリズムのためのマルチエージェントDAC(MA-DAC)を提案する。
我々は,MA-DACが他の構成調整手法と比較して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-10-13T08:39:32Z) - DACBench: A Benchmark Library for Dynamic Algorithm Configuration [30.217571636151295]
既存のDACベンチマークを異なるAI領域から収集・標準化するベンチマークライブラリであるDACBenchを提案する。
DACの可能性,適用性,課題を示すために,6つの初期ベンチマークの集合が,いくつかの難易度でどのように比較されるかを検討する。
論文 参考訳(メタデータ) (2021-05-18T14:16:51Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Dynamic Divide-and-Conquer Adversarial Training for Robust Semantic
Segmentation [79.42338812621874]
敵のトレーニングは、敵の摂動に対するディープニューラルネットワークの堅牢性を改善することを約束している。
本研究は, 敵とクリーンの両方のサンプルに対して良好に動作可能な, 汎用的な敵の訓練手順を定式化する。
本稿では,防衛効果を高めるための動的分割対対人訓練(DDC-AT)戦略を提案する。
論文 参考訳(メタデータ) (2020-03-14T05:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。