Fugu-MT 論文翻訳(概要): Meta-Learning Operators to Optimality from Multi-Task Non-IID Data

論文の概要: Meta-Learning Operators to Optimality from Multi-Task Non-IID Data

arxiv url: http://arxiv.org/abs/2308.04428v1
Date: Tue, 8 Aug 2023 17:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 11:48:20.566000
Title: Meta-Learning Operators to Optimality from Multi-Task Non-IID Data
Title（参考訳）: マルチタスク非IIDデータによるメタ学習オペレータの最適性
Authors: Thomas T.C.K. Zhang, Leonardo F. Toso, James Anderson, Nikolai Matni
Abstract要約: すべてのデータを使って共通の表現関数を学ぶことは、計算の労力と統計的一般化の両方に利益がある。既存の異方性に依存しないメタラーニングは、表現更新に偏りを生じさせるため、ノイズ項のスケーリングは、ソースタスクの数に好ましくない。我々は、Collins et al. (2021) で提案された交互化最小化退化スキームの適応 $texttDFW$ を導入し、最適な表現に線形収束を確立する。
参考スコア（独自算出の注目度）: 1.7587442088965224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A powerful concept behind much of the recent progress in machine learning is the extraction of common features across data from heterogeneous sources or tasks. Intuitively, using all of one's data to learn a common representation function benefits both computational effort and statistical generalization by leaving a smaller number of parameters to fine-tune on a given task. Toward theoretically grounding these merits, we propose a general setting of recovering linear operators $M$ from noisy vector measurements $y = Mx + w$, where the covariates $x$ may be both non-i.i.d. and non-isotropic. We demonstrate that existing isotropy-agnostic meta-learning approaches incur biases on the representation update, which causes the scaling of the noise terms to lose favorable dependence on the number of source tasks. This in turn can cause the sample complexity of representation learning to be bottlenecked by the single-task data size. We introduce an adaptation, $\texttt{De-bias & Feature-Whiten}$ ($\texttt{DFW}$), of the popular alternating minimization-descent (AMD) scheme proposed in Collins et al., (2021), and establish linear convergence to the optimal representation with noise level scaling down with the $\textit{total}$ source data size. This leads to generalization bounds on the same order as an oracle empirical risk minimizer. We verify the vital importance of $\texttt{DFW}$ on various numerical simulations. In particular, we show that vanilla alternating-minimization descent fails catastrophically even for iid, but mildly non-isotropic data. Our analysis unifies and generalizes prior work, and provides a flexible framework for a wider range of applications, such as in controls and dynamical systems.
Abstract（参考訳）: 機械学習の最近の進歩の背後にある強力な概念は、異種ソースやタスクからデータにまたがる共通機能を抽出することだ。直感的には、共通の表現関数を学ぶためにすべてのデータを使用することは、与えられたタスクでより少ないパラメータを微調整に残すことで、計算努力と統計的一般化の両方に利益をもたらす。これらの利点を理論的に基礎づけるために、ノイジーベクトル測度$y = Mx + w$ から線型作用素 $M$ を回復する一般的な設定を提案し、この共変量 $x$ は非等方的かつ非等方的である。既存の等方性非依存のメタラーニングアプローチは,表現更新のバイアスを伴い,ノイズ項のスケーリングによってソースタスク数への好適な依存が失われることを示した。これにより、単一タスクのデータサイズによって、表現学習のサンプル複雑性がボトルネックになる可能性がある。本稿では,collins et al. (2021) で提案されている交互最小化-descent (amd) 方式の適応である$\texttt{de-bias & feature-whiten}$ (\texttt{dfw}$) を導入し,$\textit{total}$ソースデータサイズでスケールダウンしたノイズレベルによる最適表現への線形収束を確立する。これはoracleの実証的リスク最小化器と同じ順序で一般化される。各種数値シミュレーションにおける$\texttt{DFW}$の重要性を検証する。特に,バニラの交互最小化降下は,iidにおいても破滅的に失敗するが,軽度に非等方性データを示す。我々の分析は、事前の作業を統一し、一般化し、制御や動的システムといった幅広いアプリケーションに対して柔軟なフレームワークを提供する。

関連論文リスト

SAND: One-Shot Feature Selection with Additive Noise Distortion [3.5976830118932583]
我々は、ニューラルネットワークトレーニング中に最も有用な機能を自動的に識別し、選択する新しい非侵入的特徴選択層を導入する。本手法は,損失関数,ネットワークアーキテクチャ,選択後再学習などの変更を要さず,一意に単純である。私たちの研究は、単純さとパフォーマンスが相互に排他的ではなく、機械学習における機能選択の強力な、かつ直接的なツールであることを示している。
論文参考訳（メタデータ） (2025-05-06T18:59:35Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しいパラダイムを提案する。提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Byzantine-resilient Federated Learning Employing Normalized Gradients on Non-IID Datasets [23.640506243685863]
実践的連合学習(FLNGA)では、悪意のある攻撃やデータ不均一性の存在が学習プロセスにバイアスをもたらすことが多い。本稿では、アップロードされた局所勾配をアグリゲーションの前に正規化する正規化勾配単位(Fed-M)モデルを提案し、$mathcalO(pM)$を達成した。
論文参考訳（メタデータ） (2024-08-18T16:50:39Z)
Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文参考訳（メタデータ） (2024-03-08T18:50:19Z)
Globally Convergent Accelerated Algorithms for Multilinear Sparse Logistic Regression with $\ell_0$-constraints [2.323238724742687]
多重線形ロジスティック回帰は多次元データ解析の強力なツールである。本稿では,$ell_0$-MLSRを解くために,アクセラレーションされた近位置換最小値MLSRモデルを提案する。また、APALM$+$が一階臨界点に大域収束し、クルディ・ロジャシエヴィチ性質を用いて収束を確立することも示している。
論文参考訳（メタデータ） (2023-09-17T11:05:08Z)
Coping with Change: Learning Invariant and Minimum Sufficient Representations for Fine-Grained Visual Categorization [26.254072665916155]
細粒度視覚分類(FGVC)は、様々な種間の類似した視覚的外観のために難しい課題である。以前の研究では、トレーニングデータとテストデータは、同じ基礎的な分布を持ち、現代のバックボーンアーキテクチャによって抽出された特徴は差別的であり、見つからないテストデータによく当てはまると仮定されている。我々は、FGVCにおける不変リスク最小化(IRM)と情報ボトルネック(IB)の原則を組み合わせて、不変性と最小限のIMS表現を学習する。
論文参考訳（メタデータ） (2023-06-08T02:45:15Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Retire: Robust Expectile Regression in High Dimensions [3.9391041278203978]
ペナル化量子化法と期待回帰法は、高次元データの異方性検出に有用な手段を提供する。我々は,頑健な期待回帰(退職)を提案し,研究する。提案手法は半平滑なニュートン座標降下アルゴリズムにより効率よく解けることを示す。
論文参考訳（メタデータ） (2022-12-11T18:03:12Z)
Iterative Feature Matching: Toward Provable Domain Generalization with Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-18T04:39:19Z)
Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文参考訳（メタデータ） (2021-06-14T05:39:09Z)
Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。 MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文参考訳（メタデータ） (2021-05-18T06:46:48Z)
Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文参考訳（メタデータ） (2020-12-29T04:08:38Z)
A Precise High-Dimensional Asymptotic Theory for Boosting and Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文参考訳（メタデータ） (2020-02-05T00:24:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。