論文の概要: Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models
- arxiv url: http://arxiv.org/abs/2501.14755v2
- Date: Wed, 04 Jun 2025 13:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.82052
- Title: Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models
- Title(参考訳): Data-Juicer 2.0: ファンデーションモデルのクラウドスケール適応データ処理
- Authors: Daoyuan Chen, Yilun Huang, Xuchen Pan, Nana Jiang, Haibin Wang, Yilei Zhang, Ce Ge, Yushuo Chen, Wenhao Zhang, Zhijian Ma, Jun Huang, Wei Lin, Yaliang Li, Bolin Ding, Jingren Zhou,
- Abstract要約: Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
- 参考スコア(独自算出の注目度): 64.28420991770382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The burgeoning field of foundation models necessitates advanced data processing mechanisms capable of harnessing vast and valuable data with various types used by these models. Nevertheless, the current landscape presents unique challenges that traditional data processing frameworks struggle to handle effectively, particularly in handling the complexity of multimodal data. In response, we present Data-Juicer 2.0, a data processing system backed by 100+ data processing operators spanning text, image, video, and audio modalities, supporting more critical tasks including data analysis, synthesis, annotation, and foundation model post-training. With seamless compatibility and dedicated optimization for popular dataset hubs like Hugging Face and computing engines like Ray, it improves upon its predecessor in terms of usability, efficiency, and programmability. It features an easily accessible user interface layer that supports decoupled Python interactions, RESTful APIs, and conversational commands. It contains a new runtime layer optimized for adaptive execution and management across varying dataset scales, processing demands, and computational environments, while hiding unnecessary system details. Extensive empirical evaluations demonstrate Data-Juicer 2.0's remarkable performance and scalability, highlighting its capability to efficiently process TB-level data with 10k+ CPU cores. The system is publicly available and has been widely adopted in diverse research fields and real-world products such as Alibaba Cloud PAI. We actively maintain it and share insights from practical feedback, with the goal of facilitating research and application of next-generation foundation models.
- Abstract(参考訳): 基礎モデルの急成長する分野は、これらのモデルで使用される様々なタイプで、膨大な価値あるデータを活用できる高度なデータ処理機構を必要とする。
しかしながら、現在の状況は、特にマルチモーダルデータの複雑さを扱う上で、従来のデータ処理フレームワークが効果的に扱うのに苦労する、ユニークな課題を示しています。
そこで本研究では,テキスト,画像,ビデオ,音声モダリティにまたがる100以上のデータ処理オペレータが支援するデータ処理システムであるData-Juicer 2.0を提案する。
Hugging FaceやRayなどのコンピューティングエンジンのような一般的なデータセットハブのシームレスな互換性と専用の最適化により、ユーザビリティ、効率性、プログラマビリティといった面で、前バージョンよりも改善されている。
分離されたPythonインタラクション,RESTful API,会話コマンドをサポートする,アクセスしやすいユーザインターフェース層を備えている。
これには、さまざまなデータセットスケール、処理要求、計算環境にまたがって、適応的な実行と管理に最適化された新しいランタイム層が含まれており、不要なシステムの詳細を隠蔽している。
大規模な実証的な評価は、Data-Juicer 2.0の顕著なパフォーマンスとスケーラビリティを示し、10k以上のCPUコアでTBレベルのデータを効率的に処理する能力を強調している。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
我々は、これを積極的に維持し、実践的なフィードバックから洞察を共有し、次世代の基礎モデルの研究と応用を促進することを目的としています。
関連論文リスト
- AutoMR: A Universal Time Series Motion Recognition Pipeline [11.170663268933676]
マルチモーダルデータセット用に設計されたエンドツーエンドの自動モーション認識(AutoMR)パイプラインを提案する。
提案するフレームワークは、データ前処理、モデルトレーニング、ハイパーパラメータチューニング、評価をシームレスに統合し、さまざまなシナリオで堅牢なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-21T05:59:41Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z) - ARDA: Automatic Relational Data Augmentation for Machine Learning [23.570173866941612]
本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
論文 参考訳(メタデータ) (2020-03-21T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。