論文の概要: Evolutionary Preference Sampling for Pareto Set Learning
- arxiv url: http://arxiv.org/abs/2404.08414v1
- Date: Fri, 12 Apr 2024 11:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:06:48.548922
- Title: Evolutionary Preference Sampling for Pareto Set Learning
- Title(参考訳): パレート・セット学習のための進化的選好サンプリング
- Authors: Rongguang Ye, Longcan Chen, Jinyuan Zhang, Hisao Ishibuchi,
- Abstract要約: 我々は、ニューラルネットワークトレーニングのための選好ベクトルを生成する進化過程として、選好サンプリングを考慮する。
提案手法は,7つのテスト問題に対するベースラインアルゴリズムよりも高速な収束速度を有する。
- 参考スコア(独自算出の注目度): 7.306693705576791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Pareto Set Learning (PSL) has been proposed for learning the entire Pareto set using a neural network. PSL employs preference vectors to scalarize multiple objectives, facilitating the learning of mappings from preference vectors to specific Pareto optimal solutions. Previous PSL methods have shown their effectiveness in solving artificial multi-objective optimization problems (MOPs) with uniform preference vector sampling. The quality of the learned Pareto set is influenced by the sampling strategy of the preference vector, and the sampling of the preference vector needs to be decided based on the Pareto front shape. However, a fixed preference sampling strategy cannot simultaneously adapt the Pareto front of multiple MOPs. To address this limitation, this paper proposes an Evolutionary Preference Sampling (EPS) strategy to efficiently sample preference vectors. Inspired by evolutionary algorithms, we consider preference sampling as an evolutionary process to generate preference vectors for neural network training. We integrate the EPS strategy into five advanced PSL methods. Extensive experiments demonstrate that our proposed method has a faster convergence speed than baseline algorithms on 7 testing problems. Our implementation is available at https://github.com/rG223/EPS.
- Abstract(参考訳): 最近、ニューラルネットワークを用いてPareto集合全体を学ぶためにPareto Set Learning (PSL)が提案されている。
PSLは選好ベクトルを用いて複数の目的をスキャラライズし、選好ベクトルから特定のパレート最適解への写像の学習を容易にする。
従来のPSL法は、一様選好ベクトルサンプリングを用いた人工多目的最適化問題(MOP)の解法の有効性を示した。
学習したPareto集合の品質は、好みベクトルのサンプリング戦略の影響を受けており、好みベクトルのサンプリングは、Pareto前方形状に基づいて決定する必要がある。
しかし、固定された選好サンプリング戦略は、複数のMOPのParetoフロントを同時に適応することはできない。
本稿では,この制限に対処するため,優先ベクトルを効率的にサンプリングするためのEPS(Evolutionary Preference Smpling)戦略を提案する。
進化的アルゴリズムに着想を得て、ニューラルネットワーク学習のための選好ベクトルを生成する進化過程として、選好サンプリングを考える。
EPS戦略を5つの先進的なPSL手法に統合する。
大規模な実験により,提案手法は7つの試験問題に対するベースラインアルゴリズムよりも高速な収束速度を有することが示された。
私たちの実装はhttps://github.com/rG223/EPS.comで公開されています。
関連論文リスト
- Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - Adaptive Selection of Sampling-Reconstruction in Fourier Compressed Sensing [13.775902519100075]
圧縮センシング(CS)は、ナイキストサンプリングの非効率性を克服するために出現している。
ディープラーニングベースの再構築は、最適化ベースの再構築に代わる有望な代替手段である。
論文 参考訳(メタデータ) (2024-09-18T06:51:29Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Preference-Optimized Pareto Set Learning for Blackbox Optimization [1.9628841617148691]
すべての目的を同時に最適化できる単一のソリューションはありません。
典型的なMOO問題では、目的間の好みを交換する最適解(パレート集合)を見つけることが目的である。
我々の定式化は、例えば微分可能なクロスエントロピー法によって解決できる二段階最適化問題につながる。
論文 参考訳(メタデータ) (2024-08-19T13:23:07Z) - Pareto Front Shape-Agnostic Pareto Set Learning in Multi-Objective Optimization [6.810571151954673]
既存の方法は、目的空間における選好ベクトルを決定空間における最適解にマッピングすることに依存する。
提案手法は, 事前知識を必要とせずに, パレート前面の任意の形状を処理し, パレート集合を学習することができる。
論文 参考訳(メタデータ) (2024-08-11T14:09:40Z) - Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning [14.260168974085376]
本稿では多目的強化学習(MORL)について検討する。
複数の報酬関数の存在下で最適なポリシーを学ぶことに焦点を当てている。
MORLの成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。
論文 参考訳(メタデータ) (2024-07-24T17:58:49Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Data-Driven Preference Sampling for Pareto Front Learning [10.70174844791007]
本研究では,Paretoフロントエンド学習のためのデータ駆動型選好ベクトルサンプリングフレームワークを提案する。
対象関数の後方情報を用いて、サンプリング分布のパラメータを柔軟に調整する。
選好ベクトルの分布をディリクレ分布の混合として設計し、モデルの性能を向上させる。
論文 参考訳(メタデータ) (2024-04-12T11:06:22Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。