論文の概要: The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective
- arxiv url: http://arxiv.org/abs/2407.08583v1
- Date: Thu, 11 Jul 2024 15:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:50:17.863456
- Title: The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective
- Title(参考訳): データとマルチモーダル大言語モデルの相乗効果:共同開発の視点から
- Authors: Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng,
- Abstract要約: モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMの性能向上には,大規模かつ高品質なデータが寄与する一方,MLLMはデータの開発を促進することができる。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
- 参考スコア(独自算出の注目度): 53.48484062444108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large language models (LLMs) has been witnessed in recent years. Based on the powerful LLMs, multi-modal LLMs (MLLMs) extend the modality from text to a broader spectrum of domains, attracting widespread attention due to the broader range of application scenarios. As LLMs and MLLMs rely on vast amounts of model parameters and data to achieve emergent capabilities, the importance of data is receiving increasingly widespread attention and recognition. Tracing and analyzing recent data-oriented works for MLLMs, we find that the development of models and data is not two separate paths but rather interconnected. On the one hand, vaster and higher-quality data contribute to better performance of MLLMs, on the other hand, MLLMs can facilitate the development of data. The co-development of multi-modal data and MLLMs requires a clear view of 1) at which development stage of MLLMs can specific data-centric approaches be employed to enhance which capabilities, and 2) by utilizing which capabilities and acting as which roles can models contribute to multi-modal data. To promote the data-model co-development for MLLM community, we systematically review existing works related to MLLMs from the data-model co-development perspective. A regularly maintained project associated with this survey is accessible at https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展は近年観察されている。
強力なLLMに基づいて、マルチモーダルLLM(MLLM)はテキストから広い範囲のドメインにモダリティを拡張し、幅広いアプリケーションシナリオのために広く注目を集めている。
LLMとMLLMは、創発的な能力を達成するために大量のモデルパラメータとデータに依存しているため、データの重要性はますます注目を集め、認識されている。
MLLMの最近のデータ指向処理の追跡と解析により、モデルとデータの開発は2つの別々の経路ではなく、むしろ相互接続であることがわかった。
一方,MLLMの性能向上には,大規模かつ高品質なデータが寄与する一方,MLLMはデータの開発を促進することができる。
マルチモーダルデータとMLLMの共同開発には明確な視点が必要である
1)MLLMの開発段階は、特定のデータ中心のアプローチを用いて、その能力を高めることができる。
2)マルチモーダルデータにどの機能を活用し、どの役割をモデルが貢献できるかを判断する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
この調査に関連する定期的なプロジェクトはhttps://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.mdで見ることができる。
関連論文リスト
- MMRel: A Relation Understanding Dataset and Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、Multi-Modal Large Language Models (MLLM)とのオブジェクト間関係を研究するための包括的データセットである。
MMRelには3つの特徴がある: (i) 大規模かつ高い多様性を保証する3つの異なるドメインから得られる15K以上の質問応答ペア; (ii) MLLMが幻覚によってしばしば失敗する非常に珍しい関係を持つサブセットを含む; (iii) オブジェクト間関係のために手作業で検証された高品質なラベルを提供する。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - A Survey of Multimodal Large Language Model from A Data-centric Perspective [46.57232264950785]
マルチモーダル大言語モデル(MLLM)は、複数のモーダルからのデータの統合と処理によって、標準的な大言語モデルの能力を高める。
データはこれらのモデルの開発と改良において重要な役割を担います。
論文 参考訳(メタデータ) (2024-05-26T17:31:21Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Mutual Enhancement of Large and Small Language Models with Cross-Silo
Knowledge Transfer [27.63746419563747]
大規模言語モデル (LLM) には幅広い知識が与えられているが、そのタスク固有の性能は、しばしば準最適である。
タスク固有のデータで微調整 LLM を必要とするが、プライバシー上の懸念からアクセスできない可能性がある。
本研究では,より小さな言語モデル (SLM) でLLMを強化し,クライアント上でプライベートなタスク固有データを用いて学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T09:52:32Z) - How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。