論文の概要: Info-Coevolution: An Efficient Framework for Data Model Coevolution
- arxiv url: http://arxiv.org/abs/2506.08070v1
- Date: Mon, 09 Jun 2025 17:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.269066
- Title: Info-Coevolution: An Efficient Framework for Data Model Coevolution
- Title(参考訳): Info-Coevolution: データモデルの共進化のための効率的なフレームワーク
- Authors: Ziheng Qin, Hailun Xu, Wei Chee Yew, Qi Jia, Yang Luo, Kanchan Sarkar, Danhui Guan, Kai Wang, Yang You,
- Abstract要約: モデルとデータをバイアスのないオンライン選択アノテーションで共進化させる新しいフレームワークを提案する。
ImageNet-1Kのような現実世界のデータセットでは、Info-Coevolutionはアノテーションとトレーニングコストをパフォーマンス損失なく32%削減する。
- 参考スコア(独自算出の注目度): 11.754869657967207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning relies heavily on data, yet the continuous growth of real-world data poses challenges for efficient dataset construction and training. A fundamental yet unsolved question is: given our current model and data, does a new data (sample/batch) need annotation/learning? Conventional approaches retain all available data, leading to non-optimal data and training efficiency. Active learning aims to reduce data redundancy by selecting a subset of samples to annotate, while it increases pipeline complexity and introduces bias. In this work, we propose Info-Coevolution, a novel framework that efficiently enables models and data to coevolve through online selective annotation with no bias. Leveraging task-specific models (and open-source models), it selectively annotates and integrates online and web data to improve datasets efficiently. For real-world datasets like ImageNet-1K, Info-Coevolution reduces annotation and training costs by 32\% without performance loss. It is able to automatically give the saving ratio without tuning the ratio. It can further reduce the annotation ratio to 50\% with semi-supervised learning. We also explore retrieval-based dataset enhancement using unlabeled open-source data. Code is available at https://github.com/NUS-HPC-AI-Lab/Info-Coevolution/.
- Abstract(参考訳): 機械学習はデータに大きく依存するが、実世界のデータの継続的な成長は、効率的なデータセットの構築とトレーニングに課題をもたらす。
現在のモデルとデータを考えると、新しいデータ(サンプル/バッチ)にはアノテーション/学習が必要ですか?
従来のアプローチでは、すべての利用可能なデータを保持し、最適でないデータとトレーニング効率に繋がる。
Active Learningは、アノテートするサンプルのサブセットを選択することで、データの冗長性を低減することを目的としている。
そこで本研究では,オンライン選択アノテーションを用いてモデルとデータを効率的に共進化させる新しいフレームワークであるInfo-Coevolutionを提案する。
タスク固有のモデル(およびオープンソースモデル)を活用して、オンラインデータとWebデータを選択的にアノテーションし、統合し、データセットを効率的に改善する。
ImageNet-1Kのような実世界のデータセットでは、Info-Coevolutionはアノテーションとトレーニングコストを32\%削減する。
比率を調整せずに自動的に貯蓄比を付与することができる。
さらに、半教師付き学習では、アノテーション比を50\%に下げることができる。
また、未ラベルのオープンソースデータを用いた検索に基づくデータセット拡張についても検討する。
コードはhttps://github.com/NUS-HPC-AI-Lab/Info-Coevolution/.comで入手できる。
関連論文リスト
- DataRater: Meta-Learned Dataset Curation [40.90328309013541]
特定のデータポイントにおけるトレーニングの価値を推定するemphDataRaterを提案する。
メタグラディエントを用いてメタラーニングを行い、保持データに対するトレーニング効率を向上させることを目的としている。
さまざまなモデルスケールとデータセットにわたる広範な実験では、データフィルタリングにDataRaterを使用することが極めて効果的であることが分かりました。
論文 参考訳(メタデータ) (2025-05-23T13:43:14Z) - Learning from Convolution-based Unlearnable Datasets [5.332412565926725]
ConlearnベースのUnlearnable DAtaset(CUDA)メソッドは、データセット内のすべてのイメージにクラスワイドなぼかしを適用することによって、データを学習不能にすることを目的としている。
本研究は,画像のシャープ化と周波数フィルタリングにより,データが未学習のままであるか否かを評価する。
学習不能なデータを用いて学習したモデルに対して,逆行訓練によるテスト精度の大幅な向上を観察する。
論文 参考訳(メタデータ) (2024-11-04T01:51:50Z) - Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [30.88999109835329]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。
構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。
我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文 参考訳(メタデータ) (2024-04-16T05:29:14Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。