論文の概要: Exact Pareto Optimal Search for Multi-Task Learning and Multi-Criteria
Decision-Making
- arxiv url: http://arxiv.org/abs/2108.00597v2
- Date: Sun, 17 Sep 2023 13:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 02:22:57.975363
- Title: Exact Pareto Optimal Search for Multi-Task Learning and Multi-Criteria
Decision-Making
- Title(参考訳): マルチタスク学習と複数行列決定のためのパレート最適探索
- Authors: Debabrata Mahapatra, Vaibhav Rajan
- Abstract要約: EPO 探索は線形収束速度で EPO 解に収束することを示す。
我々は, PFを後部MCDMで近似するPESA-EPOと, 対話型MCDMで誘導するGP-EPOという新しいアルゴリズムを開発した。
EPO検索は変数数と線形にスケールし、ディープEコマースネットワークに使用することができる。
- 参考スコア(独自算出の注目度): 10.914300987810128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given multiple non-convex objective functions and objective-specific weights,
Chebyshev scalarization (CS) is a well-known approach to obtain an Exact Pareto
Optimal (EPO), i.e., a solution on the Pareto front (PF) that intersects the
ray defined by the inverse of the weights. First-order optimizers that use the
CS formulation to find EPO solutions encounter practical problems of
oscillations and stagnation that affect convergence. Moreover, when initialized
with a PO solution, they do not guarantee a controlled trajectory that lies
completely on the PF. These shortcomings lead to modeling limitations and
computational inefficiency in multi-task learning (MTL) and multi-criteria
decision-making (MCDM) methods that utilize CS for their underlying non-convex
multi-objective optimization (MOO). To address these shortcomings, we design a
new MOO method, EPO Search. We prove that EPO Search converges to an EPO
solution and empirically illustrate its computational efficiency and robustness
to initialization. When initialized on the PF, EPO Search can trace the PF and
converge to the required EPO solution at a linear rate of convergence. Using
EPO Search we develop new algorithms: PESA-EPO for approximating the PF in a
posteriori MCDM, and GP-EPO for preference elicitation in interactive MCDM;
experiments on benchmark datasets confirm their advantages over competing
alternatives. EPO Search scales linearly with the number of decision variables
which enables its use for training deep networks. Empirical results on real
data from personalized medicine, e-commerce and hydrometeorology demonstrate
the efficacy of EPO Search for deep MTL.
- Abstract(参考訳): 複数の非凸目的関数と目標固有重みが与えられた場合、チェビシェフ・スカラー化(CS)はエグゼクト・パレート・オプティマル(EPO)を得るためのよく知られたアプローチであり、すなわち、重みの逆によって定義される線と交差するパレート・フロント(PF)上の解である。
CS定式化を用いてEPO解を求める一階最適化器は、収束に影響を与える発振と停滞の実践的な問題に遭遇する。
さらに、PO 解で初期化されると、PF に完全に属する制御された軌道は保証されない。
これらの欠点は、マルチタスク学習(mtl)とマルチクリテリア意思決定(mcdm)法におけるモデリングの限界と計算効率の非効率につながる。
これらの欠点に対処するため,我々は新しいMOO手法 EPO Search を設計した。
EPO 探索は EPO の解に収束し,その計算効率と初期化に対する堅牢性を実証的に示す。
pf 上で初期化されると、epo 探索は pf を追跡し、線形収束率で必要な epo 解に収束することができる。
epo探索を用いた新しいアルゴリズムを開発した。pesa-epoは後方mcdmのpfを近似し、gp-epoはインタラクティブmcdmの選好誘発を行う。
EPO検索は、ディープネットワークのトレーニングに使用可能な決定変数の数と線形にスケールする。
パーソナライズドメディカル、電子商取引、水理学による実データによる実証結果は、深部MTLに対するEPO検索の有効性を示す。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Enhancing Explainability of Hyperparameter Optimization via Bayesian
Algorithm Execution [13.037647287689438]
部分依存プロットのような解釈可能な機械学習(IML)手法とHPOの組み合わせについて検討する。
我々は,最適大域的予測性能を効率的に探索する改良HPO法を提案する。
提案手法は,最適化性能を損なうことなく,ブラックボックスの信頼性の高い説明を返す。
論文 参考訳(メタデータ) (2022-06-11T07:12:04Z) - Amortized Proximal Optimization [11.441395750267052]
Amortized Proximal Optimization (APO) は最適化を管理するパラメータのオンラインメタ最適化のためのフレームワークである。
APOが学習率や事前条件行列の構造化にどのように使えるかを示す。
学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニングを実証的にテストした。
論文 参考訳(メタデータ) (2022-02-28T20:50:48Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Proximal Policy Optimization via Enhanced Exploration Efficiency [6.2501569560329555]
近似ポリシー最適化(PPO)アルゴリズムは、優れた性能を持つ深層強化学習アルゴリズムである。
本稿では,PPOアルゴリズムにおける元のガウス的行動探索機構の仮定を分析し,探索能力が性能に与える影響を明らかにする。
複雑な環境で使用可能な固有探査モジュール(IEM-PPO)を提案する。
論文 参考訳(メタデータ) (2020-11-11T03:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。