論文の概要: GRAFT: Gradient-Aware Fast MaxVol Technique for Dynamic Data Sampling
- arxiv url: http://arxiv.org/abs/2508.13653v1
- Date: Tue, 19 Aug 2025 09:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.865921
- Title: GRAFT: Gradient-Aware Fast MaxVol Technique for Dynamic Data Sampling
- Title(参考訳): GRAFT: 動的データサンプリングのためのグラディエント対応高速マックスVol技術
- Authors: Ashish Jha, Anh huy Phan, Razan Dibo, Valentin Leplat,
- Abstract要約: ニューラルネットワークのためのスケーラブルなイントレーニングサブセット選択法であるGRAFTを紹介する。
GRAFTは、ウォールタイム時間、エネルギー消費、およびマザームCO$排出量を削減しつつ、トレーニング軌道を保存している。
- 参考スコア(独自算出の注目度): 4.690897716109932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training modern neural networks on large datasets is computationally and environmentally costly. We introduce GRAFT, a scalable in-training subset selection method that (i) extracts a low-rank feature representation for each batch, (ii) applies a Fast MaxVol sampler to select a small, diverse subset that spans the batch's dominant subspace, and (iii) dynamically adjusts the subset size using a gradient-approximation criterion. By operating in low-rank subspaces and training on carefully chosen examples instead of full batches, GRAFT preserves the training trajectory while reducing wall-clock time, energy consumption, and $\mathrm{CO}_2$ emissions. Across multiple benchmarks, GRAFT matches or exceeds recent selection baselines in both accuracy and efficiency, providing a favorable trade-off between accuracy, efficiency, and emissions.
- Abstract(参考訳): 大規模データセット上で現代的なニューラルネットワークをトレーニングすることは、計算的かつ環境的にコストがかかる。
スケーラブルなイントレーニングサブセット選択法であるGRAFTを導入する。
i) 各バッチに対して低ランクの特徴表現を抽出する。
(ii) Fast MaxVolサンプルラを適用して、バッチの支配的な部分空間にまたがる、小さくて多様なサブセットを選択し、
(iii)勾配近似基準を用いてサブセットサイズを動的に調整する。
低ランクのサブスペースで運用し、フルバッチではなく慎重に選択された例でトレーニングを行うことにより、GRAFTは、ウォールタイム時間、エネルギー消費、および$\mathrm{CO}_2$エミッションを削減しながら、トレーニングの軌道を保存する。
複数のベンチマークで、GRAFTは精度と効率の両面で最近の選択基準と一致し、精度、効率、エミッションの間の良好なトレードオフを提供する。
関連論文リスト
- Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。
対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。
実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-25T09:08:00Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - Physics-Driven Self-Supervised Deep Learning for Free-Surface Multiple Elimination [3.3244277562036095]
物理物理学において、ディープラーニング(Deep Learning, DL)法は、一般に大量の高品質ラベル付きデータからの教師付き学習に基づいている。
本稿では,損失計算に基礎となる物理を組み込んで,自由表面多重自由波動場をフルウェーブフィールドから効果的にパラメータ化する方法を提案する。
これにより、根拠となる真理データを示すことなく、高品質な推定値が得られる。
論文 参考訳(メタデータ) (2025-01-26T15:37:23Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - K-band: Self-supervised MRI Reconstruction via Stochastic Gradient Descent over K-space Subsets [16.785465381844435]
我々はkバンドと呼ばれる新しい数学的枠組みを導入し、部分的かつ限定的なk空間データのみを用いてDLモデルを訓練する。
各トレーニングイテレーションでは、完全にサンプリングされたk-空間を勾配を計算する代わりに、小さなk-空間の部分のみを使用する。
生MRIデータを用いた数値実験により、kバンドは限定分解能データで訓練された他の2つの方法より優れていることが示された。
論文 参考訳(メタデータ) (2023-08-05T22:07:37Z) - A Gradient-based Approach for Online Robust Deep Neural Network Training
with Noisy Labels [27.7867122240632]
本稿では,雑音ラベルのオンライン選択を可能にする新しい手法を提案する。
オンライングラディエントベースの選択選択(OGRS)は、パラメータ設定を変更することなく、さまざまなクリーン比を持つデータセットから更新するステップによって、クリーンサンプルを自動的に選択することができる。
論文 参考訳(メタデータ) (2023-06-08T08:57:06Z) - Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning [28.042568086423298]
ランダム・サブセットの繰り返しサンプリング(RS2)は、強力だが見落とされたランダムサンプリング戦略である。
我々は、ImageNetを含む4つのデータセットにわたる30の最先端データプルーニングとデータ蒸留法に対してRS2をテストする。
その結果,RS2は既存の手法に比べて時間と精度を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2023-05-28T20:38:13Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Adaptive Second Order Coresets for Data-efficient Machine Learning [5.362258158646462]
データセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
機械学習のためのトレーニング例のサブセットを抽出するために,AdaCoreを提案する。
論文 参考訳(メタデータ) (2022-07-28T05:43:09Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。