論文の概要: Direct Preference-Based Evolutionary Multi-Objective Optimization with
Dueling Bandit
- arxiv url: http://arxiv.org/abs/2311.14003v1
- Date: Thu, 23 Nov 2023 13:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:45:54.012784
- Title: Direct Preference-Based Evolutionary Multi-Objective Optimization with
Dueling Bandit
- Title(参考訳): Duling Banditを用いた直接選好に基づく進化的多目的最適化
- Authors: Tian Huang, Ke Li
- Abstract要約: 本稿では,人間のフィードバックのみに頼って,適合度関数の計算を補助する手法を提案する。
提案手法では,アクティブ・デュエル・バンディット・アルゴリズムにより直接選好学習を行う。
本研究は,従来の手法の限界に対処するだけでなく,最適化問題に対する新たな可能性を明らかにする,インタラクティブな嗜好ベースのMOEAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.434590883720791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization problems find widespread use in both single-objective and
multi-objective scenarios. In practical applications, users aspire for
solutions that converge to the region of interest (ROI) along the Pareto front
(PF). While the conventional approach involves approximating a fitness function
or an objective function to reflect user preferences, this paper explores an
alternative avenue. Specifically, we aim to discover a method that sidesteps
the need for calculating the fitness function, relying solely on human
feedback. Our proposed approach entails conducting direct preference learning
facilitated by an active dueling bandit algorithm. The experimental phase is
structured into three sessions. Firstly, we assess the performance of our
active dueling bandit algorithm. Secondly, we implement our proposed method
within the context of Multi-objective Evolutionary Algorithms (MOEAs). Finally,
we deploy our method in a practical problem, specifically in protein structure
prediction (PSP). This research presents a novel interactive preference-based
MOEA framework that not only addresses the limitations of traditional
techniques but also unveils new possibilities for optimization problems.
- Abstract(参考訳): 最適化問題は、単目的シナリオと多目的シナリオの両方で広く用いられる。
実践的なアプリケーションでは、ユーザはParetoフロント(PF)に沿って関心領域(ROI)に収束するソリューションを志しています。
従来のアプローチでは,適合度関数や客観的関数を近似してユーザの好みを反映するが,本論文では代替手段を検討する。
具体的には、人間のフィードバックのみに頼って、フィットネス関数の計算を補助的に行う方法を見つけることを目的とする。
提案手法は,アクティブなデュリングバンディットアルゴリズムによって直接選好学習が容易になることを示す。
実験段階は3つのセッションに分けられる。
まず,我々のアクティブデュエルバンディットアルゴリズムの性能を評価する。
次に,多目的進化アルゴリズム(MOEA)の文脈内で提案手法を実装した。
最後に,タンパク質構造予測(PSP)において本手法を実用上の問題に展開する。
本研究は,従来の手法の限界に対処するだけでなく,最適化問題に対する新たな可能性を明らかにする,インタラクティブな嗜好ベースのMOEAフレームワークを提案する。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Analyzing and Overcoming Local Optima in Complex Multi-Objective Optimization by Decomposition-Based Evolutionary Algorithms [5.153202024713228]
多目的進化アルゴリズム(MOEAD)はしばしば局所最適に収束し、解の多様性を制限する。
本稿では,局所最適問題を克服するために,革新的なRP選択戦略であるベクトルガイドウェイトハイブリッド法を提案する。
本研究は,2014年から2022年までのMOEADsフレームワークにおける14のアルゴリズムによるアブレーションと,提案手法の有効性を従来の手法と最先端の手法の両方に対して評価するための一連の実証実験からなる。
論文 参考訳(メタデータ) (2024-04-12T14:29:45Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Preference Inference from Demonstration in Multi-objective Multi-agent
Decision Making [0.0]
本稿では,最適あるいは準最適のいずれかから線形選好重みを推定するアルゴリズムを提案する。
実験結果から, ベースラインアルゴリズムと比較して有意な改善が得られた。
今後,マルチエージェントシステムにおけるアルゴリズムの有効性を評価することを計画している。
論文 参考訳(メタデータ) (2023-04-27T12:19:28Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Characterization of Constrained Continuous Multiobjective Optimization
Problems: A Performance Space Perspective [0.0]
制約付き多目的最適化問題(CMOP)は不満足に理解されている。
ベンチマークのための適切なCMOPの選択は困難で、正式なバックグラウンドが欠如しています。
本稿では,制約付き多目的最適化のための新しい性能評価手法を提案する。
論文 参考訳(メタデータ) (2023-02-04T14:12:30Z) - Pareto Set Learning for Neural Multi-objective Combinatorial
Optimization [6.091096843566857]
多目的最適化(MOCO)の問題は、現実世界の多くのアプリケーションで見られる。
我々は,与えられたMOCO問題に対するパレート集合全体を,探索手順を伴わずに近似する学習ベースアプローチを開発した。
提案手法は,多目的走行セールスマン問題,マルチコンディショニング車両ルーティング問題,複数クナップサック問題において,ソリューションの品質,速度,モデル効率の面で,他の方法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T09:26:22Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Batched Data-Driven Evolutionary Multi-Objective Optimization Based on
Manifold Interpolation [6.560512252982714]
バッチ化されたデータ駆動型進化的多目的最適化を実現するためのフレームワークを提案する。
オフザシェルフ進化的多目的最適化アルゴリズムがプラグイン方式で適用できるのは、非常に一般的である。
提案するフレームワークは, より高速な収束と各種PF形状に対する強いレジリエンスを特徴とする。
論文 参考訳(メタデータ) (2021-09-12T23:54:26Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。