論文の概要: Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto
Front
- arxiv url: http://arxiv.org/abs/2108.00597v1
- Date: Mon, 2 Aug 2021 02:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 01:48:29.367690
- Title: Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto
Front
- Title(参考訳): マルチタスク学習のための正確なpareto最適探索:paretoの最前線を巡る
- Authors: Debabrata Mahapatra, Vaibhav Rajan
- Abstract要約: マルチタスク学習(Multi-Task Learning、MTL)は、関連するタスクのためのディープニューラルネットワークモデルをトレーニングするための、確立されたパラダイムである。
ボックスと等式制約が課された場合を含むEPOソリューションを見つけるための,最初のスケーラブルなアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 12.868722327487752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Task Learning (MTL) is a well-established paradigm for training deep
neural network models for multiple correlated tasks. Often the task objectives
conflict, requiring trade-offs between them during model building. In such
cases, MTL models can use gradient-based multi-objective optimization (MOO) to
find one or more Pareto optimal solutions. A common requirement in MTL
applications is to find an {\it Exact} Pareto optimal (EPO) solution, which
satisfies user preferences with respect to task-specific objective functions.
Further, to improve model generalization, various constraints on the weights
may need to be enforced during training. Addressing these requirements is
challenging because it requires a search direction that allows descent not only
towards the Pareto front but also towards the input preference, within the
constraints imposed and in a manner that scales to high-dimensional gradients.
We design and theoretically analyze such search directions and develop the
first scalable algorithm, with theoretical guarantees of convergence, to find
an EPO solution, including when box and equality constraints are imposed. Our
unique method combines multiple gradient descent with carefully controlled
ascent to traverse the Pareto front in a principled manner, making it robust to
initialization. This also facilitates systematic exploration of the Pareto
front, that we utilize to approximate the Pareto front for multi-criteria
decision-making. Empirical results show that our algorithm outperforms
competing methods on benchmark MTL datasets and MOO problems.
- Abstract(参考訳): マルチタスク学習(mtl)は、複数の相関タスクに対してディープニューラルネットワークモデルをトレーニングするための確立されたパラダイムである。
多くの場合、タスクの目的が衝突し、モデル構築中にそれらの間のトレードオフが必要になる。
このような場合、MTLモデルは勾配に基づく多目的最適化(MOO)を用いて1つ以上のパレート最適解を求めることができる。
MTLアプリケーションで一般的な要件は、タスク固有の目的関数に関してユーザの好みを満たすパレート最適(EPO)ソリューションを見つけることである。
さらに、モデル一般化を改善するためには、トレーニング中に重量に関する様々な制約を課す必要がある。
これらの要件に対処するには、パレート前面だけでなく入力優先方向への降下を許容する探索方向が必要であるため、制約の範囲内で、高次元勾配にスケールする方法では困難である。
我々は,このような探索方向を設計・理論的に解析し,ボックスと等式制約が課された場合を含むEPOソリューションを見つけるために,収束の理論的保証のある最初のスケーラブルアルゴリズムを開発する。
本手法は,複数の勾配降下と注意深く制御された上昇を組み合わせることで,パレート前線を原理的に横断し,初期化に頑健な手法である。
このことはパレート前線の体系的な探索にも役立ち、多基準意思決定にパレート前線の近似に役立てる。
実験結果から,提案アルゴリズムはベンチマークMTLデータセットとMOO問題において競合する手法よりも優れていた。
関連論文リスト
- Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems [0.0]
効率的な確率的選択に基づく制約付き多目的EAをPSCMOEAと呼ぶ。
a) 評価された解の実現可能性と収束状態に基づく適応探索境界同定スキームのような新しい要素を含む。
ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。
論文 参考訳(メタデータ) (2024-05-22T02:32:58Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Enhancing Explainability of Hyperparameter Optimization via Bayesian
Algorithm Execution [13.037647287689438]
部分依存プロットのような解釈可能な機械学習(IML)手法とHPOの組み合わせについて検討する。
我々は,最適大域的予測性能を効率的に探索する改良HPO法を提案する。
提案手法は,最適化性能を損なうことなく,ブラックボックスの信頼性の高い説明を返す。
論文 参考訳(メタデータ) (2022-06-11T07:12:04Z) - Amortized Proximal Optimization [11.441395750267052]
Amortized Proximal Optimization (APO) は最適化を管理するパラメータのオンラインメタ最適化のためのフレームワークである。
APOが学習率や事前条件行列の構造化にどのように使えるかを示す。
学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニングを実証的にテストした。
論文 参考訳(メタデータ) (2022-02-28T20:50:48Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。