Fugu-MT 論文翻訳(概要): Revisiting Scalarization in Multi-Task Learning: A Theoretical Perspective

論文の概要: Revisiting Scalarization in Multi-Task Learning: A Theoretical Perspective

arxiv url: http://arxiv.org/abs/2308.13985v1
Date: Sun, 27 Aug 2023 02:10:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 17:45:26.997069
Title: Revisiting Scalarization in Multi-Task Learning: A Theoretical Perspective
Title（参考訳）: マルチタスク学習におけるスケーラビリティの再考:理論的展望
Authors: Yuzheng Hu, Ruicheng Xian, Qilong Wu, Qiuling Fan, Lang Yin, Han Zhao
Abstract要約: 理論的観点からスカラー化を再考する。その結果,スカラー化の最近の経験的利点とは対照的に,スカラー化は本質的に完全な探索ができないことがわかった。より具体的には、構造が過度にパラメータ化されている場合、多面構造を明らかにし、完全な探査に必要な必要かつ十分な条件を特定する。
参考スコア（独自算出の注目度）: 10.699728978583206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linear scalarization, i.e., combining all loss functions by a weighted sum, has been the default choice in the literature of multi-task learning (MTL) since its inception. In recent years, there is a surge of interest in developing Specialized Multi-Task Optimizers (SMTOs) that treat MTL as a multi-objective optimization problem. However, it remains open whether there is a fundamental advantage of SMTOs over scalarization. In fact, heated debates exist in the community comparing these two types of algorithms, mostly from an empirical perspective. To approach the above question, in this paper, we revisit scalarization from a theoretical perspective. We focus on linear MTL models and study whether scalarization is capable of fully exploring the Pareto front. Our findings reveal that, in contrast to recent works that claimed empirical advantages of scalarization, scalarization is inherently incapable of full exploration, especially for those Pareto optimal solutions that strike the balanced trade-offs between multiple tasks. More concretely, when the model is under-parametrized, we reveal a multi-surface structure of the feasible region and identify necessary and sufficient conditions for full exploration. This leads to the conclusion that scalarization is in general incapable of tracing out the Pareto front. Our theoretical results partially answer the open questions in Xin et al. (2021), and provide a more intuitive explanation on why scalarization fails beyond non-convexity. We additionally perform experiments on a real-world dataset using both scalarization and state-of-the-art SMTOs. The experimental results not only corroborate our theoretical findings, but also unveil the potential of SMTOs in finding balanced solutions, which cannot be achieved by scalarization.
Abstract（参考訳）: 線形スカラー化、すなわち重み付き和ですべての損失関数を組み合わせることは、その開始以来、マルチタスク学習(mtl)の文献においてデフォルトの選択となっている。近年,MTLを多目的最適化問題として扱うSMTO(Specialized Multi-Task Optimizers)の開発への関心が高まっている。しかし、スカラー化に対してSMTOの根本的な優位性があるかどうかは不明である。実際、この2つのタイプのアルゴリズムを比較するコミュニティには、熱烈な議論が存在している。本稿では, 上記の問題にアプローチするため, 理論的観点からスカラー化を再考する。線形mtlモデルに注目し,スカラー化がパレート前線を完全に探索できるかどうかを検討する。この結果から,スカラー化のメリットを実証的に主張する最近の研究とは対照的に,スカラー化は本質的に完全な探索には不可能であることが明らかとなった。より具体的には、モデルが過度にパラメータ化されると、実現可能な領域の多面構造を明らかにし、完全な探索に必要な十分な条件を特定する。このことは、スカラー化が一般にパレートフロントを追跡できないという結論に繋がる。我々の理論的結果は、Xin et al. (2021) のオープンな疑問に部分的に答え、スカラー化が非凸性を超えて失敗する理由についてより直感的な説明を提供する。また、スキャラライズと最先端SMTOの両方を用いて実世界のデータセット上で実験を行う。実験結果は理論的な知見と相関するだけでなく,スカラー化では達成できない平衡解の発見におけるSMTOの可能性も明らかにした。

関連論文リスト

How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文参考訳（メタデータ） (2026-01-08T15:55:13Z)
Variational Inference, Entropy, and Orthogonality: A Unified Theory of Mixture-of-Experts [11.888882732753922]
Mixture-of-Expertsモデルは、入力毎に専門家のサブセットのみを起動するため、大きな言語モデルを効率的にスケールすることができる。ベイズの観点から、これらのプラクティスを最適後続近似と事前正規化として導出する最初の統一理論フレームワークを構築した。我々の研究は、MoEのより深い理解と新しい設計のために、本質的な理論的支援と技術的保証を提供する。
論文参考訳（メタデータ） (2026-01-07T04:45:07Z)
Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文参考訳（メタデータ） (2025-11-15T05:01:43Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文参考訳（メタデータ） (2024-10-18T11:49:40Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文参考訳（メタデータ） (2024-05-27T18:33:37Z)
Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文参考訳（メタデータ） (2024-03-18T14:55:45Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Optimal Scalarizations for Sublinear Hypervolume Regret [2.703970154550017]
均一にランダムな重みを持つ超体積スカラー化は、O(T-1/k)$の最適サブボリューム超体積後悔境界が得られることを示す。多目的線型包帯の設定のために、不必要な$textpoly(k)$依存を取り除くために$tildeO(d T-1/2 + T-1/k)$の後悔境界を得る新しい非ユークリッド解析を導出する。
論文参考訳（メタデータ） (2023-07-06T20:49:42Z)
On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文参考訳（メタデータ） (2023-06-23T22:05:08Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
Generalization In Multi-Objective Machine Learning [27.806085423595334]
マルチオブジェクト学習は、早期のトレードオフにコミットすることなく、このような問題に対処するための自然なフレームワークを提供する。統計的学習理論は、これまでのところ、多目的学習の一般化特性についてはほとんど洞察を提供していない。
論文参考訳（メタデータ） (2022-08-29T11:06:39Z)
Calibration of Derivative Pricing Models: a Multi-Agent Reinforcement Learning Perspective [3.626013617212667]
量的金融における最も基本的な問題の1つは、与えられたオプションセットの市場価格に適合する連続時間拡散モデルの存在である。我々の貢献は、この問題の適切なゲーム理論定式化が、現代の深層多エージェント強化学習における既存の発展を活用することで、この問題をいかに解決できるかを示すことである。
論文参考訳（メタデータ） (2022-03-14T05:34:00Z)
On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2022-02-28T13:01:04Z)
An Optimal Transport Perspective on Unpaired Image Super-Resolution [97.24140709634203]
実世界の画像超解像(SR)タスクは、しばしばペア化されたデータセットを持たず、教師付き技術の適用を制限する。このようなモデルで生じる最適化問題を調査し、2つの驚くべき観測結果を得る。学習した写像が偏りがあること、すなわち、低解像度画像の分布を高解像度画像に変換するものではないことを実証し、実証的に示す。
論文参考訳（メタデータ） (2022-02-02T16:21:20Z)
On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文参考訳（メタデータ） (2021-07-27T09:13:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。