論文の概要: Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development
- arxiv url: http://arxiv.org/abs/2407.11784v2
- Date: Wed, 05 Feb 2025 03:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:58.092135
- Title: Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development
- Title(参考訳): Data-Juicer Sandbox:マルチモーダルデータモデル共同開発のためのフィードバック駆動スイート
- Authors: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou,
- Abstract要約: 統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
- 参考スコア(独自算出の注目度): 67.55944651679864
- License:
- Abstract: The emergence of multimodal large models has advanced artificial intelligence, introducing unprecedented levels of performance and functionality. However, optimizing these models remains challenging due to historically isolated paths of model-centric and data-centric developments, leading to suboptimal outcomes and inefficient resource utilization. In response, we present a new sandbox suite tailored for integrated data-model co-development. This sandbox provides a feedback-driven experimental platform, enabling cost-effective iteration and guided refinement of both data and models. Our proposed ``Probe-Analyze-Refine'' workflow, validated through practical use cases on multimodal tasks such as image-text pre-training with CLIP, image-to-text generation with LLaVA-like models, and text-to-video generation with DiT-based models, yields transferable and notable performance boosts, such as topping the VBench leaderboard. Extensive experiments also uncover fruitful insights into the interplay between data quality, diversity, model behavior, and computational costs. All codes, datasets, and models are open-sourced to foster future research and applications that would otherwise be infeasible due to the lack of a dedicated co-development infrastructure.
- Abstract(参考訳): マルチモーダルな大規模モデルの出現は、前例のないレベルのパフォーマンスと機能を導入し、高度な人工知能をもたらした。
しかし、モデル中心およびデータ中心の開発において歴史的に分離された経路のため、これらのモデルの最適化は依然として困難であり、最適以下の結果と非効率な資源利用につながる。
そこで本研究では,データモデル統合共同開発に適したサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率のよいイテレーションと、データとモデルの両方のガイド付き洗練を可能にする。
提案する ‘Probe-Analyze-Refine' ワークフローは,CLIPによる画像テキスト事前学習,LLaVA的なモデルによる画像テキスト生成,DiTベースのモデルによるテキストビデオ生成といったマルチモーダルタスクの実践的ユースケースを通じて検証され,VBench のリーダボードをトッピングするなど,転送可能かつ顕著なパフォーマンス向上を実現している。
大規模な実験はまた、データ品質、多様性、モデルの振る舞い、計算コストの間の相互作用に関する実りある洞察も明らかにした。
すべてのコード、データセット、モデルはオープンソースとして公開されており、共同開発インフラストラクチャが欠如しているため、そうでなければ実現不可能な将来の研究とアプリケーションを促進する。
関連論文リスト
- Active Learning of Model Discrepancy with Bayesian Experimental Design [0.0]
逐次実験設計(BED)から得られたデータに基づいてモデル差分を効率的に学習する手法を提案する。
提案手法は, 逐次BEDによって提案されるデータを用いて, 高次元モデル差分率の能動的学習に対して, 効率的かつ堅牢であることを示す。
また,提案手法は古典的数値解法と近代自己微分可能解法の両方と互換性があることを実証した。
論文 参考訳(メタデータ) (2025-02-07T22:54:20Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。
このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。
我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文 参考訳(メタデータ) (2024-10-09T17:52:28Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。