論文の概要: SAGE: Streaming Agreement-Driven Gradient Sketches for Representative Subset Selection
- arxiv url: http://arxiv.org/abs/2510.02470v1
- Date: Thu, 02 Oct 2025 18:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.124826
- Title: SAGE: Streaming Agreement-Driven Gradient Sketches for Representative Subset Selection
- Title(参考訳): SAGE: サブセット選択のための合意駆動型グラディエントスケッチのストリーミング
- Authors: Ashish Jha, Salman Ahmadi-Asl,
- Abstract要約: 大規模データセット上で現代的なニューラルネットワークをトレーニングすることは、計算的かつエネルギー集約的である。
本稿では,O(ell D)$メモリにおける勾配幾何学のFDスケッチをコンパクトに維持するストリーミングデータサブセット選択法であるSAGEを提案する。
SAGEは、効率的なトレーニングのためにプルーニングとモデル圧縮を補完する実用的で定型的な代替手段を提供する。
- 参考スコア(独自算出の注目度): 0.1104960878651584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training modern neural networks on large datasets is computationally and energy intensive. We present SAGE, a streaming data-subset selection method that maintains a compact Frequent Directions (FD) sketch of gradient geometry in $O(\ell D)$ memory and prioritizes examples whose sketched gradients align with a consensus direction. The approach eliminates $N \times N$ pairwise similarities and explicit $N \times \ell$ gradient stores, yielding a simple two-pass, GPU-friendly pipeline. Leveraging FD's deterministic approximation guarantees, we analyze how agreement scoring preserves gradient energy within the principal sketched subspace. Across multiple benchmarks, SAGE trains with small kept-rate budgets while retaining competitive accuracy relative to full-data training and recent subset-selection baselines, and reduces end-to-end compute and peak memory. Overall, SAGE offers a practical, constant-memory alternative that complements pruning and model compression for efficient training.
- Abstract(参考訳): 大規模データセット上で現代的なニューラルネットワークをトレーニングすることは、計算的かつエネルギー集約的である。
我々は,FD(Frequent Directions)のコンパクトな勾配幾何学スケッチを$O(\ell D)$メモリで保持し,スケッチした勾配がコンセンサス方向と一致した例を優先するストリーミングデータサブセット選択手法であるSAGEを提案する。
このアプローチは、$N \times N$ペアの類似性と明示的な$N \times \ell$グラデーションストアを排除し、単純な2パスのGPUフレンドリーなパイプラインを生成する。
FDの決定論的近似を応用し、アグリーメントが主スケッチされた部分空間内の勾配エネルギーをどのように保存するかを分析する。
複数のベンチマークを通じて、SAGEは、完全なデータトレーニングと最近のサブセット選択ベースラインに対する競争精度を維持しながら、小さな保持レートの予算でトレーニングし、エンドツーエンドの計算とピークメモリを削減した。
全体としてSAGEは、効率的なトレーニングのためにプルーニングとモデル圧縮を補完する実用的で定型的な代替手段を提供する。
関連論文リスト
- Communication Efficient, Differentially Private Distributed Optimization using Correlation-Aware Sketching [17.117393709226903]
各クライアントはラウンド毎に$d$Dの勾配を送信し、DPノイズの大きさは$d$で増加する。
DOMEは分散化されたDP最適化フレームワークで、各クライアントは、プライベート化とセキュアアグリゲーションの前に、プロジェクトグラデーションを$mathbbRk$に拡張するためのコンパクトなスケッチを維持できる。
これにより、ラウンドごとの通信が$d$から$k$に減少し、勾配近似の平均2乗誤差が$sigma2 k$になる。
論文 参考訳(メタデータ) (2025-07-04T12:54:21Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - Better Rates for Private Linear Regression in the Proportional Regime via Aggressive Clipping [19.186034457189162]
一般的なアプローチは、サンプルごとの勾配の予想基準よりもクリッピング定数をはるかに大きく設定することである。
しかし、分析を単純化する一方で、これは経験的証拠がパフォーマンスを最適化することを示唆しているものとは対照的である。
我々の研究は、クリッピングが頻繁に起こる体制において、理論と実践のギャップを埋める。
論文 参考訳(メタデータ) (2025-05-22T07:34:27Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Stochastic Constrained Decentralized Optimization for Machine Learning with Fewer Data Oracles: a Gradient Sliding Approach [32.36073823372713]
機械学習モデルでは、アルゴリズムはその勾配のためにデータセンターとサンプルデータに通信する必要がある。
これにより、通信効率が良く、勾配計算の数を最小限に抑える分散最適化アルゴリズムの必要性が生じる。
通信効率が高く,$varepsilon$-approximate のソリューションを実現する。
論文 参考訳(メタデータ) (2024-04-03T06:55:59Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Sliced Iterative Normalizing Flows [7.6146285961466]
我々は,任意の確率分布関数(PDF)を対象のPDFに変換することができる反復型(欲求型)ディープラーニング(DL)アルゴリズムを開発した。
本アルゴリズムの特殊な場合として,データから潜在空間(GIS)にマップする2つの反復正規化フロー(SINF)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-01T18:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。