論文の概要: Efficient Training of Deep Networks using Guided Spectral Data Selection: A Step Toward Learning What You Need
- arxiv url: http://arxiv.org/abs/2507.04269v1
- Date: Sun, 06 Jul 2025 07:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.096014
- Title: Efficient Training of Deep Networks using Guided Spectral Data Selection: A Step Toward Learning What You Need
- Title(参考訳): ガイド付きスペクトルデータ選択を用いたディープネットワークの効率的な学習:必要なものを学ぶためのステップ
- Authors: Mohammadreza Sharifi, Ahad Harati,
- Abstract要約: 本稿では,GSTDS(Guid Spectrally Tuned Data Selection)アルゴリズムを提案する。
GSTDSは、市販の事前訓練参照モデルを使用して、トレーニングに使用するデータポイントのサブセットを動的に調整する。
性能を損なうことなく、最大4回まで、計算要求の顕著な削減を実現している。
- 参考スコア(独自算出の注目度): 0.30693357740321775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective data curation is essential for optimizing neural network training. In this paper, we present the Guided Spectrally Tuned Data Selection (GSTDS) algorithm, which dynamically adjusts the subset of data points used for training using an off-the-shelf pre-trained reference model. Based on a pre-scheduled filtering ratio, GSTDS effectively reduces the number of data points processed per batch. The proposed method ensures an efficient selection of the most informative data points for training while avoiding redundant or less beneficial computations. Preserving data points in each batch is performed based on spectral analysis. A Fiedler vector-based scoring mechanism removes the filtered portion of the batch, lightening the resource requirements of the learning. The proposed data selection approach not only streamlines the training process but also promotes improved generalization and accuracy. Extensive experiments on standard image classification benchmarks, including CIFAR-10, Oxford-IIIT Pet, and Oxford-Flowers, demonstrate that GSTDS outperforms standard training scenarios and JEST, a recent state-of-the-art data curation method, on several key factors. It is shown that GSTDS achieves notable reductions in computational requirements, up to four times, without compromising performance. GSTDS exhibits a considerable growth in terms of accuracy under the limited computational resource usage, in contrast to other methodologies. These promising results underscore the potential of spectral-based data selection as a scalable solution for resource-efficient deep learning and motivate further exploration into adaptive data curation strategies. You can find the code at https://github.com/rezasharifi82/GSTDS.
- Abstract(参考訳): ニューラルネットワークトレーニングの最適化には,効果的なデータキュレーションが不可欠だ。
本稿では,市販の事前学習参照モデルを用いて,トレーニングに使用するデータポイントのサブセットを動的に調整するGSTDSアルゴリズムを提案する。
事前スケジューリングされたフィルタリング比に基づいて、GSTDSはバッチ毎に処理されるデータポイント数を効果的に削減する。
提案手法は、冗長あるいは低益な計算を回避しつつ、トレーニングのための最も情報性の高いデータポイントを効率的に選択することを保証する。
各バッチにおけるデータポイントの保存は、スペクトル分析に基づいて行われる。
Fiedlerベクトルに基づくスコアリング機構は、バッチのフィルタされた部分を除去し、学習のリソース要求を軽くする。
提案したデータ選択アプローチは、トレーニングプロセスの合理化だけでなく、一般化と精度の向上も促進する。
CIFAR-10、Oxford-IIIT Pet、Oxford-Flowersなどの標準画像分類ベンチマークに関する大規模な実験は、GSTDSが標準的なトレーニングシナリオより優れており、最近の最先端のデータキュレーション手法であるJESTがいくつかの重要な要素について優れていることを実証している。
GSTDSは,性能を損なうことなく,最大4倍の計算要求の顕著な削減を実現している。
GSTDSは、他の手法とは対照的に、限られた計算資源使用量の下での精度の面でかなりの成長を示している。
これらの有望な結果は、リソース効率の高いディープラーニングのためのスケーラブルなソリューションとして、スペクトルベースのデータ選択の可能性を強調し、適応的なデータキュレーション戦略へのさらなる探求を動機付けている。
コードはhttps://github.com/rezasharifi82/GSTDSにある。
関連論文リスト
- Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々は、ポイントワイドV情報(PVI)に基づく効果的なデータ削減戦略を提案する。
実験により、データの10%-30%を除去すると、0.0001%から0.76%の精度で分類器のパフォーマンスが保たれることが示された。
我々は、以前英語データセットにのみ適用されていたPVIフレームワークを、中国における多様なNLPタスクやベースモデルに移行した。
論文 参考訳(メタデータ) (2025-06-19T06:59:19Z) - Optimizing Data Curation through Spectral Analysis and Joint Batch Selection (SALN) [0.0]
本稿では,データセット全体からではなく,各バッチ内のサンプルを優先順位付けして選択する手法であるSALNを紹介する。
提案手法は,各バッチ内の最も情報性の高いデータポイントを特定するためのスペクトル解析を応用し,学習速度と精度を向上する。
最大8倍のトレーニング時間を短縮し、標準のトレーニングメソッドよりも最大5%の精度を向上する。
論文 参考訳(メタデータ) (2024-12-22T15:38:36Z) - From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [30.88999109835329]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。
構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。
我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文 参考訳(メタデータ) (2024-04-16T05:29:14Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。