論文の概要: Collaborative Unlabeled Data Optimization
- arxiv url: http://arxiv.org/abs/2505.14117v1
- Date: Tue, 20 May 2025 09:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.96599
- Title: Collaborative Unlabeled Data Optimization
- Title(参考訳): 協調的未ラベルデータ最適化
- Authors: Xinyi Shang, Peng Sun, Fengyuan Liu, Tao Lin,
- Abstract要約: 本稿では,ラベルなしデータの有用性を最大化するための新しいデータ中心パラダイムを開拓する。
ラベルのないデータを配布し、公開可能なタスクに依存しないモデルを活用することで、CoOptはスケーラブルで再利用可能な、持続可能なトレーニングパイプラインを促進します。
- 参考スコア(独自算出の注目度): 6.512302544770766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
- Abstract(参考訳): 本稿では、ラベルのないデータの有用性を最大化するために、新たなデータ中心パラダイムを開拓し、重要な問題に取り組む。データ自体を最適化することで、ディープラーニングトレーニングの効率性と持続性を高めるにはどうすればよいのか?
データから抽出された知識はモデルパラメータにロックされ、その再利用性とスケーラビリティを妨げる。
この目的のために,コラボレーテッドデータ最適化のための高効率並列化フレームワークであるCoOptを提案する。
ラベルのないデータを配布し、公開可能なタスクに依存しないモデルを活用することで、CoOptはスケーラブルで再利用可能な、持続可能なトレーニングパイプラインを促進します。
さまざまなデータセットとアーキテクチャにわたる大規模な実験は、Tiny-ImageNetとImageNet-1Kでそれぞれ13.6%と6.8%の改善を達成し、トレーニングスピードアップは1.94 \times$と1.2 \times$である。
関連論文リスト
- Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。
データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。
Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-18T03:10:00Z) - Quality over Quantity: Boosting Data Efficiency Through Ensembled Multimodal Data Curation [4.030723722142048]
本稿では,Webcrawlデータセットの非構造的および不均一性に関わる課題に対処する。
先進的な学習駆動型アプローチである DAta ThroUgh Multimodal Operators (EcoDatum) のアンサンブルキュレーションを導入する。
EcoDatumは、弱監督アンサンブルフレームワーク内に、様々な単一モーダルおよびマルチモーダルデータキュレーション演算子を戦略的に統合する。
DataCompのリーダーボードでは、38のさまざまな評価データセットの中で、平均的なパフォーマンススコアが0.182だった。
論文 参考訳(メタデータ) (2025-02-12T08:40:57Z) - Data Assetization via Resources-decoupled Federated Learning [7.347554648348435]
フェデレートラーニング(FL)は、プライバシーを維持しながら協調トレーニングモデルに効果的なアプローチを提供する。
まず,3つの関係者を巻き込んだ資源分離FLの枠組みを提案する。
次に,QD-RDFL(Quality-Aware Dynamic Resources-Decoupled FL Algorithm)を提案する。
論文 参考訳(メタデータ) (2025-01-24T15:49:04Z) - YuLan-Mini: An Open Data-efficient Language Model [111.02822724500552]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。
注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2024-12-23T17:47:53Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。