論文の概要: Quality over Quantity: Boosting Data Efficiency Through Ensembled Multimodal Data Curation
- arxiv url: http://arxiv.org/abs/2502.08211v1
- Date: Wed, 12 Feb 2025 08:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 18:10:00.91689
- Title: Quality over Quantity: Boosting Data Efficiency Through Ensembled Multimodal Data Curation
- Title(参考訳): 量を超える品質: 集合型マルチモーダルデータキュレーションによるデータの効率向上
- Authors: Jinda Xu, Yuhao Song, Daming Wang, Weiwei Zhao, Minghua Chen, Kangliang Chen, Qinya Li,
- Abstract要約: 本稿では,Webcrawlデータセットの非構造的および不均一性に関わる課題に対処する。
先進的な学習駆動型アプローチである DAta ThroUgh Multimodal Operators (EcoDatum) のアンサンブルキュレーションを導入する。
EcoDatumは、弱監督アンサンブルフレームワーク内に、様々な単一モーダルおよびマルチモーダルデータキュレーション演算子を戦略的に統合する。
DataCompのリーダーボードでは、38のさまざまな評価データセットの中で、平均的なパフォーマンススコアが0.182だった。
- 参考スコア(独自算出の注目度): 4.030723722142048
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In an era overwhelmed by vast amounts of data, the effective curation of web-crawl datasets is essential for optimizing model performance. This paper tackles the challenges associated with the unstructured and heterogeneous nature of such datasets. Traditional heuristic curation methods often inadequately capture complex features, resulting in biases and the exclusion of relevant data. We introduce an advanced, learning-driven approach, Ensemble Curation Of DAta ThroUgh Multimodal Operators (EcoDatum), incorporating a novel quality-guided deduplication method to ensure balanced feature distributions. EcoDatum strategically integrates various unimodal and multimodal data curation operators within a weak supervision ensemble framework, utilizing automated optimization to score each data point effectively. EcoDatum, which significantly improves the data curation quality and efficiency, outperforms existing state-of-the-art (SOTA) techniques, ranked 1st on the DataComp leaderboard, with an average performance score of 0.182 across 38 diverse evaluation datasets. This represents a 28% improvement over the DataComp baseline method, demonstrating its effectiveness in improving dataset curation and model training efficiency.
- Abstract(参考訳): 膨大なデータに圧倒された時代において、モデル性能を最適化するためには、Webクロールデータセットの効果的なキュレーションが不可欠である。
本稿では、そのようなデータセットの非構造的・不均一性に関わる課題に取り組む。
伝統的なヒューリスティックなキュレーション法は、しばしば複雑な特徴を不十分に捉え、バイアスと関連するデータの排除をもたらす。
本稿では,高度な学習駆動型アプローチである,DATA ThroUgh Multimodal Operators (EcoDatum) を導入する。
EcoDatumは、弱い監視アンサンブルフレームワーク内に、さまざまな単一およびマルチモーダルデータキュレーション演算子を戦略的に統合し、各データポイントを効果的にスコアする自動最適化を利用する。
EcoDatumは、データキュレーションの品質と効率を大幅に改善し、既存の最先端技術(SOTA)技術よりも優れており、データCompのリーダーボードで1位にランクされ、38のさまざまな評価データセットの平均パフォーマンススコアは0.182である。
これはDataCompのベースラインメソッドよりも28%改善され、データセットのキュレーションの改善とモデルのトレーニング効率が向上したことを示している。
関連論文リスト
- Contrastive and Variational Approaches in Self-Supervised Learning for Complex Data Mining [36.772769830368475]
本研究では,複雑なデータマイニングにおける自己教師あり学習手法の役割を,系統的な実験を通して分析した。
その結果, モデルが異なるデータセットに対して高い適応性を示し, ラベルのないデータから高品質な特徴を効果的に抽出し, 分類精度を向上させることができた。
論文 参考訳(メタデータ) (2025-04-05T02:55:44Z) - Data-Efficient Pretraining with Group-Level Data Influence Modeling [49.18903821780051]
グループレベルデータ影響モデリング(Group-MATES)は、新しいデータ効率事前学習手法である。
Group-MATESは、事前学習モデルをデータセットで局所的に探索することで、オラクルグループレベルの影響を収集する。
その後、関係データの影響モデルを微調整し、個々の影響の相関重み付けとしてオラクルを近似する。
論文 参考訳(メタデータ) (2025-02-20T16:34:46Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Targeted synthetic data generation for tabular data via hardness characterization [0.0]
本稿では,高価値な学習点のみを生成する簡単な拡張パイプラインを提案する。
提案手法はサンプル外予測の品質を向上し,非対象手法と比較して計算効率が向上する。
論文 参考訳(メタデータ) (2024-10-01T14:54:26Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。