論文の概要: Revisiting Scalarization in Multi-Task Learning: A Theoretical
Perspective
- arxiv url: http://arxiv.org/abs/2308.13985v2
- Date: Fri, 22 Sep 2023 07:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 18:04:49.987813
- Title: Revisiting Scalarization in Multi-Task Learning: A Theoretical
Perspective
- Title(参考訳): マルチタスク学習におけるスケーラビリティの再考:理論的展望
- Authors: Yuzheng Hu, Ruicheng Xian, Qilong Wu, Qiuling Fan, Lang Yin, Han Zhao
- Abstract要約: 理論的観点からスカラー化を再考する。
その結果,スカラー化の最近の経験的利点とは対照的に,スカラー化は本質的に完全な探索ができないことがわかった。
より具体的には、構造が過度にパラメータ化されている場合、多面構造を明らかにし、完全な探査に必要な必要かつ十分な条件を特定する。
- 参考スコア(独自算出の注目度): 10.699728978583206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear scalarization, i.e., combining all loss functions by a weighted sum,
has been the default choice in the literature of multi-task learning (MTL)
since its inception. In recent years, there is a surge of interest in
developing Specialized Multi-Task Optimizers (SMTOs) that treat MTL as a
multi-objective optimization problem. However, it remains open whether there is
a fundamental advantage of SMTOs over scalarization. In fact, heated debates
exist in the community comparing these two types of algorithms, mostly from an
empirical perspective. To approach the above question, in this paper, we
revisit scalarization from a theoretical perspective. We focus on linear MTL
models and study whether scalarization is capable of fully exploring the Pareto
front. Our findings reveal that, in contrast to recent works that claimed
empirical advantages of scalarization, scalarization is inherently incapable of
full exploration, especially for those Pareto optimal solutions that strike the
balanced trade-offs between multiple tasks. More concretely, when the model is
under-parametrized, we reveal a multi-surface structure of the feasible region
and identify necessary and sufficient conditions for full exploration. This
leads to the conclusion that scalarization is in general incapable of tracing
out the Pareto front. Our theoretical results partially answer the open
questions in Xin et al. (2021), and provide a more intuitive explanation on why
scalarization fails beyond non-convexity. We additionally perform experiments
on a real-world dataset using both scalarization and state-of-the-art SMTOs.
The experimental results not only corroborate our theoretical findings, but
also unveil the potential of SMTOs in finding balanced solutions, which cannot
be achieved by scalarization.
- Abstract(参考訳): 線形スカラー化、すなわち重み付き和ですべての損失関数を組み合わせることは、その開始以来、マルチタスク学習(mtl)の文献においてデフォルトの選択となっている。
近年,MTLを多目的最適化問題として扱うSMTO(Specialized Multi-Task Optimizers)の開発への関心が高まっている。
しかし、スカラー化に対してSMTOの根本的な優位性があるかどうかは不明である。
実際、この2つのタイプのアルゴリズムを比較するコミュニティには、熱烈な議論が存在している。
本稿では, 上記の問題にアプローチするため, 理論的観点からスカラー化を再考する。
線形mtlモデルに注目し,スカラー化がパレート前線を完全に探索できるかどうかを検討する。
この結果から,スカラー化のメリットを実証的に主張する最近の研究とは対照的に,スカラー化は本質的に完全な探索には不可能であることが明らかとなった。
より具体的には、モデルが過度にパラメータ化されると、実現可能な領域の多面構造を明らかにし、完全な探索に必要な十分な条件を特定する。
このことは、スカラー化が一般にパレートフロントを追跡できないという結論に繋がる。
我々の理論的結果は、Xin et al. (2021) のオープンな疑問に部分的に答え、スカラー化が非凸性を超えて失敗する理由についてより直感的な説明を提供する。
また、スキャラライズと最先端SMTOの両方を用いて実世界のデータセット上で実験を行う。
実験結果は理論的な知見と相関するだけでなく,スカラー化では達成できない平衡解の発見におけるSMTOの可能性も明らかにした。
関連論文リスト
- SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - Optimal Scalarizations for Sublinear Hypervolume Regret [2.703970154550017]
均一にランダムな重みを持つ超体積スカラー化は、O(T-1/k)$の最適サブボリューム超体積後悔境界が得られることを示す。
多目的線型包帯の設定のために、不必要な$textpoly(k)$依存を取り除くために$tildeO(d T-1/2 + T-1/k)$の後悔境界を得る新しい非ユークリッド解析を導出する。
論文 参考訳(メタデータ) (2023-07-06T20:49:42Z) - On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文 参考訳(メタデータ) (2023-06-23T22:05:08Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Generalization In Multi-Objective Machine Learning [27.806085423595334]
マルチオブジェクト学習は、早期のトレードオフにコミットすることなく、このような問題に対処するための自然なフレームワークを提供する。
統計的学習理論は、これまでのところ、多目的学習の一般化特性についてはほとんど洞察を提供していない。
論文 参考訳(メタデータ) (2022-08-29T11:06:39Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。