論文の概要: Meta-Learning Operators to Optimality from Multi-Task Non-IID Data
- arxiv url: http://arxiv.org/abs/2308.04428v1
- Date: Tue, 8 Aug 2023 17:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 11:48:20.566000
- Title: Meta-Learning Operators to Optimality from Multi-Task Non-IID Data
- Title(参考訳): マルチタスク非IIDデータによるメタ学習オペレータの最適性
- Authors: Thomas T.C.K. Zhang, Leonardo F. Toso, James Anderson, Nikolai Matni
- Abstract要約: すべてのデータを使って共通の表現関数を学ぶことは、計算の労力と統計的一般化の両方に利益がある。
既存の異方性に依存しないメタラーニングは、表現更新に偏りを生じさせるため、ノイズ項のスケーリングは、ソースタスクの数に好ましくない。
我々は、Collins et al. (2021) で提案された交互化最小化退化スキームの適応 $texttDFW$ を導入し、最適な表現に線形収束を確立する。
- 参考スコア(独自算出の注目度): 1.7587442088965224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A powerful concept behind much of the recent progress in machine learning is
the extraction of common features across data from heterogeneous sources or
tasks. Intuitively, using all of one's data to learn a common representation
function benefits both computational effort and statistical generalization by
leaving a smaller number of parameters to fine-tune on a given task. Toward
theoretically grounding these merits, we propose a general setting of
recovering linear operators $M$ from noisy vector measurements $y = Mx + w$,
where the covariates $x$ may be both non-i.i.d. and non-isotropic. We
demonstrate that existing isotropy-agnostic meta-learning approaches incur
biases on the representation update, which causes the scaling of the noise
terms to lose favorable dependence on the number of source tasks. This in turn
can cause the sample complexity of representation learning to be bottlenecked
by the single-task data size. We introduce an adaptation, $\texttt{De-bias &
Feature-Whiten}$ ($\texttt{DFW}$), of the popular alternating
minimization-descent (AMD) scheme proposed in Collins et al., (2021), and
establish linear convergence to the optimal representation with noise level
scaling down with the $\textit{total}$ source data size. This leads to
generalization bounds on the same order as an oracle empirical risk minimizer.
We verify the vital importance of $\texttt{DFW}$ on various numerical
simulations. In particular, we show that vanilla alternating-minimization
descent fails catastrophically even for iid, but mildly non-isotropic data. Our
analysis unifies and generalizes prior work, and provides a flexible framework
for a wider range of applications, such as in controls and dynamical systems.
- Abstract(参考訳): 機械学習の最近の進歩の背後にある強力な概念は、異種ソースやタスクからデータにまたがる共通機能を抽出することだ。
直感的には、共通の表現関数を学ぶためにすべてのデータを使用することは、与えられたタスクでより少ないパラメータを微調整に残すことで、計算努力と統計的一般化の両方に利益をもたらす。
これらの利点を理論的に基礎づけるために、ノイジーベクトル測度$y = Mx + w$ から線型作用素 $M$ を回復する一般的な設定を提案し、この共変量 $x$ は非等方的かつ非等方的である。
既存の等方性非依存のメタラーニングアプローチは,表現更新のバイアスを伴い,ノイズ項のスケーリングによってソースタスク数への好適な依存が失われることを示した。
これにより、単一タスクのデータサイズによって、表現学習のサンプル複雑性がボトルネックになる可能性がある。
本稿では,collins et al. (2021) で提案されている交互最小化-descent (amd) 方式の適応である$\texttt{de-bias & feature-whiten}$ (\texttt{dfw}$) を導入し,$\textit{total}$ソースデータサイズでスケールダウンしたノイズレベルによる最適表現への線形収束を確立する。
これはoracleの実証的リスク最小化器と同じ順序で一般化される。
各種数値シミュレーションにおける$\texttt{DFW}$の重要性を検証する。
特に,バニラの交互最小化降下は,iidにおいても破滅的に失敗するが,軽度に非等方性データを示す。
我々の分析は、事前の作業を統一し、一般化し、制御や動的システムといった幅広いアプリケーションに対して柔軟なフレームワークを提供する。
関連論文リスト
- Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Globally Convergent Accelerated Algorithms for Multilinear Sparse
Logistic Regression with $\ell_0$-constraints [2.323238724742687]
多重線形ロジスティック回帰は多次元データ解析の強力なツールである。
本稿では,$ell_0$-MLSRを解くために,アクセラレーションされた近位置換最小値MLSRモデルを提案する。
また、APALM$+$が一階臨界点に大域収束し、クルディ・ロジャシエヴィチ性質を用いて収束を確立することも示している。
論文 参考訳(メタデータ) (2023-09-17T11:05:08Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Federated Empirical Risk Minimization via Second-Order Method [18.548661105227488]
連合学習環境下での一般的な経験的リスク最小化問題を解決するためのインテリアポイント法(IPM)を提案する。
IPMの各イテレーションの通信複雑性は$tildeO(d3/2)$であり、$d$はデータセットの次元(つまり、多くの機能)である。
論文 参考訳(メタデータ) (2023-05-27T14:23:14Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Distributed Sparse Feature Selection in Communication-Restricted
Networks [6.9257380648471765]
疎線形回帰と特徴選択のための新しい分散スキームを提案し,理論的に解析する。
データセット全体から因果次元を推定するために,ネットワーク内の情報共有をシンプルかつ効果的に行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T05:02:24Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。
定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。
MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文 参考訳(メタデータ) (2021-05-18T06:46:48Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。