Fugu-MT 論文翻訳(概要): Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

論文の概要: Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

arxiv url: http://arxiv.org/abs/2407.11784v1
Date: Tue, 16 Jul 2024 14:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 14:32:53.081608
Title: Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development
Title（参考訳）: Data-Juicer Sandbox:マルチモーダルデータモデル共同開発のための総合的なスイート
Authors: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou,
Abstract要約: 統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
参考スコア（独自算出の注目度）: 67.55944651679864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of large-scale multi-modal generative models has drastically advanced artificial intelligence, introducing unprecedented levels of performance and functionality. However, optimizing these models remains challenging due to historically isolated paths of model-centric and data-centric developments, leading to suboptimal outcomes and inefficient resource utilization. In response, we present a novel sandbox suite tailored for integrated data-model co-development. This sandbox provides a comprehensive experimental platform, enabling rapid iteration and insight-driven refinement of both data and models. Our proposed "Probe-Analyze-Refine" workflow, validated through applications on state-of-the-art LLaVA-like and DiT based models, yields significant performance boosts, such as topping the VBench leaderboard. We also uncover fruitful insights gleaned from exhaustive benchmarks, shedding light on the critical interplay between data quality, diversity, and model behavior. With the hope of fostering deeper understanding and future progress in multi-modal data and generative modeling, our codes, datasets, and models are maintained and accessible at https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
Abstract（参考訳）: 大規模マルチモーダル生成モデルの出現は、前例のないレベルのパフォーマンスと機能を導入し、人工知能を大幅に進歩させた。しかし、モデル中心およびデータ中心の開発において歴史的に分離された経路のため、これらのモデルの最適化は依然として困難であり、最適以下の結果と非効率な資源利用につながる。そこで本研究では,データモデル統合共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。提案した"Probe-Analyze-Refine"ワークフローは,最先端のLLaVAライクモデルやDiTベースモデルに適用することで,VBenchリーダボードのトッピングなど,大幅なパフォーマンス向上を実現している。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。マルチモーダルデータと生成モデリングのより深い理解と今後の進歩を促進するために、私たちのコード、データセット、モデルはhttps://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.mdでメンテナンスされ、アクセスできます。

関連論文リスト

Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models [24.73190742678142]
マルチモーダル視覚言語生成システムにおける生成モデル崩壊のリスクについて検討する。モデル崩壊は、視覚言語アライメントの改善や、画像キャプションタスクのばらつきの増大など、マルチモーダルな文脈において異なる特徴を示す。本研究は,自己改善型マルチエージェントAIシステムにおいて,モデル崩壊のリスクを低減するための初期知見と実践的ガイドラインを提供する。
論文参考訳（メタデータ） (2025-05-10T22:42:29Z)
Improved visual-information-driven model for crowd simulation and its modular application [4.683197108420276]
データ駆動のクラウドシミュレーションモデルは、シミュレーションの精度とリアリズムを高める利点を提供する。データ駆動の群集シミュレーションモデルを開発することは、依然としてオープンな問題である。本稿では,視覚情報抽出手法と出口手がかりを取り入れたデータ駆動モデルを提案する。
論文参考訳（メタデータ） (2025-04-02T07:53:33Z)
LeForecast: Enterprise Hybrid Forecast by Time Series Intelligence [10.203492575046015]
LeForecastは、時系列タスクに適したエンタープライズインテリジェンスプラットフォームである。時系列データとマルチソース情報の高度な解釈、および3ピラーモデリングエンジンを統合する。本研究は3つの産業ユースケースにおけるLeForecastの展開とその性能についてレビューする。
論文参考訳（メタデータ） (2025-03-27T02:58:06Z)
Active Learning of Model Discrepancy with Bayesian Experimental Design [0.0]
逐次実験設計(BED)から得られたデータに基づいてモデル差分を効率的に学習する手法を提案する。提案手法は, 逐次BEDによって提案されるデータを用いて, 高次元モデル差分率の能動的学習に対して, 効率的かつ堅牢であることを示す。また,提案手法は古典的数値解法と近代自己微分可能解法の両方と互換性があることを実証した。
論文参考訳（メタデータ） (2025-02-07T22:54:20Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文参考訳（メタデータ） (2024-10-09T17:52:28Z)
Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文参考訳（メタデータ） (2024-06-18T02:12:34Z)
Recency-Weighted Temporally-Segmented Ensemble for Time-Series Modeling [0.0]
プロセス産業における時系列モデリングは、複雑で多面的で進化するデータ特性を扱うという課題に直面している。マルチステップ予測のための新しいチャンクベースアプローチであるRecency-Weighted Temporally-Segmented(ReWTS)アンサンブルモデルを導入する。ノルウェーの排水処理場と飲料水処理場からの2年間のデータをもとに,比較分析を行った。
論文参考訳（メタデータ） (2024-03-04T16:00:35Z)
A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文参考訳（メタデータ） (2024-01-11T15:13:31Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文参考訳（メタデータ） (2022-09-02T11:50:41Z)
Relating by Contrasting: A Data-efficient Framework for Multimodal Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文参考訳（メタデータ） (2020-07-02T15:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。