論文の概要: Adaptive Operator Selection Based on Dynamic Thompson Sampling for
MOEA/D
- arxiv url: http://arxiv.org/abs/2004.10874v1
- Date: Wed, 22 Apr 2020 21:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:37:51.973890
- Title: Adaptive Operator Selection Based on Dynamic Thompson Sampling for
MOEA/D
- Title(参考訳): MOEA/Dのための動的トンプソンサンプリングに基づく適応演算子選択
- Authors: Lei Sun and Ke Li
- Abstract要約: 本稿では,分解(MOEA/D)に基づく多目的進化アルゴリズムのための新しいAOS機構を提案する。
AOSは、動的トンプソンサンプリング(DYTS)を適用してバンド学習モデルを適用するマルチアームバンディット問題として定式化される。
提案したAOS機構の有効性と競争性を,他の4種類のMOEA/Dモデルと比較した。
- 参考スコア(独自算出の注目度): 11.034230601053116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In evolutionary computation, different reproduction operators have various
search dynamics. To strike a well balance between exploration and exploitation,
it is attractive to have an adaptive operator selection (AOS) mechanism that
automatically chooses the most appropriate operator on the fly according to the
current status. This paper proposes a new AOS mechanism for multi-objective
evolutionary algorithm based on decomposition (MOEA/D). More specifically, the
AOS is formulated as a multi-armed bandit problem where the dynamic Thompson
sampling (DYTS) is applied to adapt the bandit learning model, originally
proposed with an assumption of a fixed award distribution, to a non-stationary
setup. In particular, each arm of our bandit learning model represents a
reproduction operator and is assigned with a prior reward distribution. The
parameters of these reward distributions will be progressively updated
according to the performance of its performance collected from the evolutionary
process. When generating an offspring, an operator is chosen by sampling from
those reward distribution according to the DYTS. Experimental results fully
demonstrate the effectiveness and competitiveness of our proposed AOS mechanism
compared with other four state-of-the-art MOEA/D variants.
- Abstract(参考訳): 進化計算では、異なる再生演算子は様々な探索力学を持つ。
探索とエクスプロイトのバランスをとるためには、現在の状況に応じて、フライ時に最も適切な演算子を自動的に選択する適応演算子選択(AOS)機構を持つことが魅力である。
本稿では,分解(MOEA/D)に基づく多目的進化アルゴリズムのための新しいAOS機構を提案する。
より具体的には、aosは、動的トンプソンサンプリング(dyts)を適用したマルチアームバンディット問題として定式化され、元々固定された賞分布の仮定で提案されたバンディット学習モデルを非定常設定に適応させる。
特に,バンディット学習モデルの各アームは再現演算子を表し,事前報酬分布が割り当てられている。
これらの報酬分布のパラメータは、進化過程から収集された性能に応じて徐々に更新される。
子孫を生成する際に、DYTSに応じてその報酬分布をサンプリングして演算子を選択する。
他の4種類のMOEA/D変種と比較して,提案したAOS機構の有効性と競争性を実証した。
関連論文リスト
- Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Learning Efficient and Fair Policies for Uncertainty-Aware Collaborative Human-Robot Order Picking [11.997524293204368]
協調的な人間ロボットのオーダーピッキングシステムでは、人間のピッカーと自律移動ロボット(AMR)は倉庫内を独立して移動し、ピッカーがアイテムをAMRに積む場所で会う。
本稿では,多目的深層強化学習(DRL)アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-09T11:45:16Z) - A Bandit Approach with Evolutionary Operators for Model Selection [0.4604003661048266]
この研究は、モデル選択を無限武装のバンディット問題、すなわち意思決定者が無限数の固定された選択のうちの1つを反復的に選択する問題として定式化する。
アームは、モデルの部分的なトレーニングに対応するアームをトレーニングし、選択するための機械学習モデルである(リソース割り当て)。
本稿では,Audiber らによって導入された UCB-E bandit アルゴリズムに,進化的アルゴリズムからの演算子を組み込んだ Mutant-UCB アルゴリズムを提案する。
3つのオープンソース画像分類データセットで実施されたテストは、この新しい組み合わせ手法の妥当性を証明し、状態よりも優れている。
論文 参考訳(メタデータ) (2024-02-07T08:01:45Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - SGEM: Test-Time Adaptation for Automatic Speech Recognition via
Sequential-Level Generalized Entropy Minimization [30.61075178799518]
テスト時間適応(TTA)法は、ソースデータなしで未ラベルのテストインスタンスに事前学習されたASRモデルを適用するために最近提案されている。
我々は、一般的なASRモデルに対して、SGEMと呼ばれる新しいTTAフレームワークを提案する。
SGEMは、ドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を達成する。
論文 参考訳(メタデータ) (2023-06-03T02:27:08Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Model Selection for Bayesian Autoencoders [25.619565817793422]
本稿では,オートエンコーダの出力と経験的データ分布との分散スライス-ワッサーシュタイン距離を最適化することを提案する。
我々のBAEは、フレキシブルなディリクレ混合モデルを潜在空間に適合させることにより、生成モデルに変換する。
我々は,教師なしの学習課題に対する膨大な実験的キャンペーンを質的かつ定量的に評価し,先行研究が重要となる小規模データ体制において,我々のアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-11T08:55:00Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Efficient UAV Trajectory-Planning using Economic Reinforcement Learning [65.91405908268662]
UAV間でタスクを分散するための経済取引に触発された新しい強化学習アルゴリズムであるREPlannerを紹介します。
エージェントが協力し、リソースを競うことができるマルチエージェント経済ゲームとして、パス計画問題を策定します。
UAV協力によるタスク分布の計算を行うため、Swarmサイズの変化に対して非常に耐性が高い。
論文 参考訳(メタデータ) (2021-03-03T20:54:19Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。