Fugu-MT 論文翻訳(概要): Data Processing Techniques for Modern Multimodal Models

論文の概要: Data Processing Techniques for Modern Multimodal Models

arxiv url: http://arxiv.org/abs/2407.19180v1
Date: Sat, 27 Jul 2024 05:39:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 19:31:05.586224
Title: Data Processing Techniques for Modern Multimodal Models
Title（参考訳）: 現代マルチモーダルモデルのためのデータ処理技術
Authors: Yinheng Li, Han Ding, Hang Chen,
Abstract要約: 本稿では,現代のマルチモーダルモデルトレーニングで使用される共通データ処理技術について概観する。すべてのテクニックを、データ品質、データ量、データ分散、データ安全性の4つのカテゴリにまとめました。
参考スコア（独自算出の注目度）: 9.177400969158377
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data processing plays an significant role in current multimodal model training. In this paper. we provide an comprehensive review of common data processing techniques used in modern multimodal model training with a focus on diffusion models and multimodal large language models (MLLMs). We summarized all techniques into four categories: data quality, data quantity, data distribution and data safety. We further present our findings in the choice of data process methods in different type of models. This study aims to provide guidance to multimodal models developers with effective data processing techniques.
Abstract（参考訳）: データ処理は、現在のマルチモーダルモデルのトレーニングにおいて重要な役割を果たす。本項で述べる。本稿では,拡散モデルと多モーダル大言語モデル(MLLM)に着目し,現代マルチモーダルモデルトレーニングで使用される共通データ処理手法の総合的なレビューを行う。すべてのテクニックを、データ品質、データ量、データ分散、データ安全性の4つのカテゴリにまとめました。さらに、異なるタイプのモデルにおけるデータ処理方法の選択に関する知見を提示する。本研究の目的は,効率的なデータ処理技術を持つマルチモーダルモデル開発者へのガイダンスを提供することである。

関連論文リスト

Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文参考訳（メタデータ） (2025-02-05T17:21:01Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文参考訳（メタデータ） (2024-10-24T09:03:48Z)
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-09T17:44:00Z)
Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management [35.06717005729781]
最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。このようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存のトレーニングシステムに重要なモデル管理課題をもたらす。プロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。
論文参考訳（メタデータ） (2024-09-05T09:10:40Z)
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文参考訳（メタデータ） (2024-08-14T16:58:48Z)
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文参考訳（メタデータ） (2024-06-13T17:59:42Z)
Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文参考訳（メタデータ） (2023-11-22T05:15:12Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Relating by Contrasting: A Data-efficient Framework for Multimodal Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文参考訳（メタデータ） (2020-07-02T15:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。