Fugu-MT 論文翻訳(概要): Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data

論文の概要: Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data

arxiv url: http://arxiv.org/abs/2308.04428v4
Date: Sat, 12 Oct 2024 20:17:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 13:52:59.300027
Title: Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data
Title（参考訳）: 非IID非等方的データからのサンプル効率の線形表現学習
Authors: Thomas T. C. K. Zhang, Leonardo F. Toso, James Anderson, Nikolai Matni,
Abstract要約: コリンズとナイアーとヴァスワニによって提案された交互最小化・退化スキームの適応について紹介する。 iidにおいてもバニラ変動最小化降下は破滅的に失敗するが, 軽度に非等方性データは得られない。我々の分析は、事前の作業を統一し、一般化し、幅広いアプリケーションに柔軟なフレームワークを提供する。
参考スコア（独自算出の注目度）: 4.971690889257356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A powerful concept behind much of the recent progress in machine learning is the extraction of common features across data from heterogeneous sources or tasks. Intuitively, using all of one's data to learn a common representation function benefits both computational effort and statistical generalization by leaving a smaller number of parameters to fine-tune on a given task. Toward theoretically grounding these merits, we propose a general setting of recovering linear operators $M$ from noisy vector measurements $y = Mx + w$, where the covariates $x$ may be both non-i.i.d. and non-isotropic. We demonstrate that existing isotropy-agnostic representation learning approaches incur biases on the representation update, which causes the scaling of the noise terms to lose favorable dependence on the number of source tasks. This in turn can cause the sample complexity of representation learning to be bottlenecked by the single-task data size. We introduce an adaptation, $\texttt{De-bias & Feature-Whiten}$ ($\texttt{DFW}$), of the popular alternating minimization-descent scheme proposed independently in Collins et al., (2021) and Nayer and Vaswani (2022), and establish linear convergence to the optimal representation with noise level scaling down with the $\textit{total}$ source data size. This leads to generalization bounds on the same order as an oracle empirical risk minimizer. We verify the vital importance of $\texttt{DFW}$ on various numerical simulations. In particular, we show that vanilla alternating-minimization descent fails catastrophically even for iid, but mildly non-isotropic data. Our analysis unifies and generalizes prior work, and provides a flexible framework for a wider range of applications, such as in controls and dynamical systems.
Abstract（参考訳）: 最近の機械学習の進歩の背景にある強力な概念は、異質なソースやタスクからデータ間で共通の特徴を抽出することである。直感的には、すべてのデータを使って共通の表現関数を学習することは、与えられたタスクの微調整に少数のパラメータを残すことにより、計算労力と統計的一般化の両方の恩恵を受ける。これらの利点を理論的に基礎づけるために、ノイジーベクトル測度$y = Mx + w$ から線型作用素 $M$ を回復する一般的な設定を提案し、この共変量 $x$ は非等方的かつ非等方的である。既存の異方性に依存しない表現学習が表現更新のバイアスに近づき、ノイズ項のスケーリングがソースタスク数に有利な依存をなくすことを実証する。これにより、表現学習のサンプルの複雑さは、シングルタスクのデータサイズによってボトルネックになる可能性がある。我々は、Collins et al , (2021) と Nayer と Vaswani (2022) で独立に提案された交代最小化退化スキームの適応として、$\textt{De-bias & Feature-Whiten}$$(\texttt{DFW}$)を導入し、$\textit{total}$ソースデータサイズでスケールダウンしたノイズレベルの最適な表現に線形収束を確立する。これにより、オラクル経験的リスク最小化器と同じ順序で一般化境界が導かれる。各種数値シミュレーションにおける$\texttt{DFW}$の重要性を検証する。特に,バニラの交互最小化降下は,iidにおいても破滅的に失敗するが,軽度に非等方性データは得られない。我々の分析は、事前の作業を統一し、一般化し、制御や動的システムといった幅広いアプリケーションに対して柔軟なフレームワークを提供する。

関連論文リスト

SAND: One-Shot Feature Selection with Additive Noise Distortion [3.5976830118932583]
我々は、ニューラルネットワークトレーニング中に最も有用な機能を自動的に識別し、選択する新しい非侵入的特徴選択層を導入する。本手法は,損失関数,ネットワークアーキテクチャ,選択後再学習などの変更を要さず,一意に単純である。私たちの研究は、単純さとパフォーマンスが相互に排他的ではなく、機械学習における機能選択の強力な、かつ直接的なツールであることを示している。
論文参考訳（メタデータ） (2025-05-06T18:59:35Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しいパラダイムを提案する。提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Byzantine-resilient Federated Learning Employing Normalized Gradients on Non-IID Datasets [23.640506243685863]
実践的連合学習(FLNGA)では、悪意のある攻撃やデータ不均一性の存在が学習プロセスにバイアスをもたらすことが多い。本稿では、アップロードされた局所勾配をアグリゲーションの前に正規化する正規化勾配単位(Fed-M)モデルを提案し、$mathcalO(pM)$を達成した。
論文参考訳（メタデータ） (2024-08-18T16:50:39Z)
Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文参考訳（メタデータ） (2024-03-08T18:50:19Z)
Globally Convergent Accelerated Algorithms for Multilinear Sparse Logistic Regression with $\ell_0$-constraints [2.323238724742687]
多重線形ロジスティック回帰は多次元データ解析の強力なツールである。本稿では,$ell_0$-MLSRを解くために,アクセラレーションされた近位置換最小値MLSRモデルを提案する。また、APALM$+$が一階臨界点に大域収束し、クルディ・ロジャシエヴィチ性質を用いて収束を確立することも示している。
論文参考訳（メタデータ） (2023-09-17T11:05:08Z)
Coping with Change: Learning Invariant and Minimum Sufficient Representations for Fine-Grained Visual Categorization [26.254072665916155]
細粒度視覚分類(FGVC)は、様々な種間の類似した視覚的外観のために難しい課題である。以前の研究では、トレーニングデータとテストデータは、同じ基礎的な分布を持ち、現代のバックボーンアーキテクチャによって抽出された特徴は差別的であり、見つからないテストデータによく当てはまると仮定されている。我々は、FGVCにおける不変リスク最小化(IRM)と情報ボトルネック(IB)の原則を組み合わせて、不変性と最小限のIMS表現を学習する。
論文参考訳（メタデータ） (2023-06-08T02:45:15Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Retire: Robust Expectile Regression in High Dimensions [3.9391041278203978]
ペナル化量子化法と期待回帰法は、高次元データの異方性検出に有用な手段を提供する。我々は,頑健な期待回帰(退職)を提案し,研究する。提案手法は半平滑なニュートン座標降下アルゴリズムにより効率よく解けることを示す。
論文参考訳（メタデータ） (2022-12-11T18:03:12Z)
Iterative Feature Matching: Toward Provable Domain Generalization with Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-18T04:39:19Z)
Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文参考訳（メタデータ） (2021-06-14T05:39:09Z)
Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。 MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文参考訳（メタデータ） (2021-05-18T06:46:48Z)
Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文参考訳（メタデータ） (2020-12-29T04:08:38Z)
A Precise High-Dimensional Asymptotic Theory for Boosting and Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文参考訳（メタデータ） (2020-02-05T00:24:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。