論文の概要: Exact Pareto Optimal Search for Multi-Task Learning and Multi-Criteria
Decision-Making
- arxiv url: http://arxiv.org/abs/2108.00597v2
- Date: Sun, 17 Sep 2023 13:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 02:22:57.975363
- Title: Exact Pareto Optimal Search for Multi-Task Learning and Multi-Criteria
Decision-Making
- Title(参考訳): マルチタスク学習と複数行列決定のためのパレート最適探索
- Authors: Debabrata Mahapatra, Vaibhav Rajan
- Abstract要約: EPO 探索は線形収束速度で EPO 解に収束することを示す。
我々は, PFを後部MCDMで近似するPESA-EPOと, 対話型MCDMで誘導するGP-EPOという新しいアルゴリズムを開発した。
EPO検索は変数数と線形にスケールし、ディープEコマースネットワークに使用することができる。
- 参考スコア(独自算出の注目度): 10.914300987810128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given multiple non-convex objective functions and objective-specific weights,
Chebyshev scalarization (CS) is a well-known approach to obtain an Exact Pareto
Optimal (EPO), i.e., a solution on the Pareto front (PF) that intersects the
ray defined by the inverse of the weights. First-order optimizers that use the
CS formulation to find EPO solutions encounter practical problems of
oscillations and stagnation that affect convergence. Moreover, when initialized
with a PO solution, they do not guarantee a controlled trajectory that lies
completely on the PF. These shortcomings lead to modeling limitations and
computational inefficiency in multi-task learning (MTL) and multi-criteria
decision-making (MCDM) methods that utilize CS for their underlying non-convex
multi-objective optimization (MOO). To address these shortcomings, we design a
new MOO method, EPO Search. We prove that EPO Search converges to an EPO
solution and empirically illustrate its computational efficiency and robustness
to initialization. When initialized on the PF, EPO Search can trace the PF and
converge to the required EPO solution at a linear rate of convergence. Using
EPO Search we develop new algorithms: PESA-EPO for approximating the PF in a
posteriori MCDM, and GP-EPO for preference elicitation in interactive MCDM;
experiments on benchmark datasets confirm their advantages over competing
alternatives. EPO Search scales linearly with the number of decision variables
which enables its use for training deep networks. Empirical results on real
data from personalized medicine, e-commerce and hydrometeorology demonstrate
the efficacy of EPO Search for deep MTL.
- Abstract(参考訳): 複数の非凸目的関数と目標固有重みが与えられた場合、チェビシェフ・スカラー化(CS)はエグゼクト・パレート・オプティマル(EPO)を得るためのよく知られたアプローチであり、すなわち、重みの逆によって定義される線と交差するパレート・フロント(PF)上の解である。
CS定式化を用いてEPO解を求める一階最適化器は、収束に影響を与える発振と停滞の実践的な問題に遭遇する。
さらに、PO 解で初期化されると、PF に完全に属する制御された軌道は保証されない。
これらの欠点は、マルチタスク学習(mtl)とマルチクリテリア意思決定(mcdm)法におけるモデリングの限界と計算効率の非効率につながる。
これらの欠点に対処するため,我々は新しいMOO手法 EPO Search を設計した。
EPO 探索は EPO の解に収束し,その計算効率と初期化に対する堅牢性を実証的に示す。
pf 上で初期化されると、epo 探索は pf を追跡し、線形収束率で必要な epo 解に収束することができる。
epo探索を用いた新しいアルゴリズムを開発した。pesa-epoは後方mcdmのpfを近似し、gp-epoはインタラクティブmcdmの選好誘発を行う。
EPO検索は、ディープネットワークのトレーニングに使用可能な決定変数の数と線形にスケールする。
パーソナライズドメディカル、電子商取引、水理学による実データによる実証結果は、深部MTLに対するEPO検索の有効性を示す。
関連論文リスト
- Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems [0.0]
効率的な確率的選択に基づく制約付き多目的EAをPSCMOEAと呼ぶ。
a) 評価された解の実現可能性と収束状態に基づく適応探索境界同定スキームのような新しい要素を含む。
ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。
論文 参考訳(メタデータ) (2024-05-22T02:32:58Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Enhancing Explainability of Hyperparameter Optimization via Bayesian
Algorithm Execution [13.037647287689438]
部分依存プロットのような解釈可能な機械学習(IML)手法とHPOの組み合わせについて検討する。
我々は,最適大域的予測性能を効率的に探索する改良HPO法を提案する。
提案手法は,最適化性能を損なうことなく,ブラックボックスの信頼性の高い説明を返す。
論文 参考訳(メタデータ) (2022-06-11T07:12:04Z) - Amortized Proximal Optimization [11.441395750267052]
Amortized Proximal Optimization (APO) は最適化を管理するパラメータのオンラインメタ最適化のためのフレームワークである。
APOが学習率や事前条件行列の構造化にどのように使えるかを示す。
学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニングを実証的にテストした。
論文 参考訳(メタデータ) (2022-02-28T20:50:48Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。