Fugu-MT 論文翻訳(概要): Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto Front

論文の概要: Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto Front

arxiv url: http://arxiv.org/abs/2108.00597v1
Date: Mon, 2 Aug 2021 02:13:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-04 01:48:29.367690
Title: Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto Front
Title（参考訳）: マルチタスク学習のための正確なpareto最適探索:paretoの最前線を巡る
Authors: Debabrata Mahapatra, Vaibhav Rajan
Abstract要約: マルチタスク学習(Multi-Task Learning、MTL)は、関連するタスクのためのディープニューラルネットワークモデルをトレーニングするための、確立されたパラダイムである。ボックスと等式制約が課された場合を含むEPOソリューションを見つけるための,最初のスケーラブルなアルゴリズムを開発した。
参考スコア（独自算出の注目度）: 12.868722327487752
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-Task Learning (MTL) is a well-established paradigm for training deep neural network models for multiple correlated tasks. Often the task objectives conflict, requiring trade-offs between them during model building. In such cases, MTL models can use gradient-based multi-objective optimization (MOO) to find one or more Pareto optimal solutions. A common requirement in MTL applications is to find an {\it Exact} Pareto optimal (EPO) solution, which satisfies user preferences with respect to task-specific objective functions. Further, to improve model generalization, various constraints on the weights may need to be enforced during training. Addressing these requirements is challenging because it requires a search direction that allows descent not only towards the Pareto front but also towards the input preference, within the constraints imposed and in a manner that scales to high-dimensional gradients. We design and theoretically analyze such search directions and develop the first scalable algorithm, with theoretical guarantees of convergence, to find an EPO solution, including when box and equality constraints are imposed. Our unique method combines multiple gradient descent with carefully controlled ascent to traverse the Pareto front in a principled manner, making it robust to initialization. This also facilitates systematic exploration of the Pareto front, that we utilize to approximate the Pareto front for multi-criteria decision-making. Empirical results show that our algorithm outperforms competing methods on benchmark MTL datasets and MOO problems.
Abstract（参考訳）: マルチタスク学習(mtl)は、複数の相関タスクに対してディープニューラルネットワークモデルをトレーニングするための確立されたパラダイムである。多くの場合、タスクの目的が衝突し、モデル構築中にそれらの間のトレードオフが必要になる。このような場合、MTLモデルは勾配に基づく多目的最適化(MOO)を用いて1つ以上のパレート最適解を求めることができる。 MTLアプリケーションで一般的な要件は、タスク固有の目的関数に関してユーザの好みを満たすパレート最適(EPO)ソリューションを見つけることである。さらに、モデル一般化を改善するためには、トレーニング中に重量に関する様々な制約を課す必要がある。これらの要件に対処するには、パレート前面だけでなく入力優先方向への降下を許容する探索方向が必要であるため、制約の範囲内で、高次元勾配にスケールする方法では困難である。我々は,このような探索方向を設計・理論的に解析し,ボックスと等式制約が課された場合を含むEPOソリューションを見つけるために,収束の理論的保証のある最初のスケーラブルアルゴリズムを開発する。本手法は,複数の勾配降下と注意深く制御された上昇を組み合わせることで,パレート前線を原理的に横断し,初期化に頑健な手法である。このことはパレート前線の体系的な探索にも役立ち、多基準意思決定にパレート前線の近似に役立てる。実験結果から,提案アルゴリズムはベンチマークMTLデータセットとMOO問題において競合する手法よりも優れていた。

関連論文リスト

Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文参考訳（メタデータ） (2025-03-17T06:28:25Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Efficient and Scalable Deep Reinforcement Learning for Mean Field Control Games [16.62770187749295]
平均場制御ゲーム(MFCG)は、無限に多くの相互作用するエージェントのシステムを解析するための強力な理論的枠組みを提供する。本稿では,MFCGの近似平衡解に対する拡張性のある深層強化学習(RL)手法を提案する。
論文参考訳（メタデータ） (2024-12-28T02:04:53Z)
MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。 Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文参考訳（メタデータ） (2024-12-13T14:18:58Z)
Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。 HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文参考訳（メタデータ） (2024-07-21T17:35:20Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems [0.0]
効率的な確率的選択に基づく制約付き多目的EAをPSCMOEAと呼ぶ。 a) 評価された解の実現可能性と収束状態に基づく適応探索境界同定スキームのような新しい要素を含む。 ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。
論文参考訳（メタデータ） (2024-05-22T02:32:58Z)
Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。 PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文参考訳（メタデータ） (2024-02-16T19:35:58Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Enhancing Explainability of Hyperparameter Optimization via Bayesian Algorithm Execution [13.037647287689438]
部分依存プロットのような解釈可能な機械学習(IML)手法とHPOの組み合わせについて検討する。我々は,最適大域的予測性能を効率的に探索する改良HPO法を提案する。提案手法は,最適化性能を損なうことなく,ブラックボックスの信頼性の高い説明を返す。
論文参考訳（メタデータ） (2022-06-11T07:12:04Z)
Amortized Proximal Optimization [11.441395750267052]
Amortized Proximal Optimization (APO) は最適化を管理するパラメータのオンラインメタ最適化のためのフレームワークである。 APOが学習率や事前条件行列の構造化にどのように使えるかを示す。学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニングを実証的にテストした。
論文参考訳（メタデータ） (2022-02-28T20:50:48Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。