論文の概要: DreamLLM: Synergistic Multimodal Comprehension and Creation
- arxiv url: http://arxiv.org/abs/2309.11499v2
- Date: Fri, 15 Mar 2024 19:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:52:43.888694
- Title: DreamLLM: Synergistic Multimodal Comprehension and Creation
- Title(参考訳): DreamLLM: シンジスティックなマルチモーダル理解と創造
- Authors: Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi,
- Abstract要約: DreamLLMはマルチモーダル大規模言語モデル(MLLM)を初めて実現した学習フレームワークである
DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
- 参考スコア(独自算出の注目度): 58.08565432353053
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents DreamLLM, a learning framework that first achieves versatile Multimodal Large Language Models (MLLMs) empowered with frequently overlooked synergy between multimodal comprehension and creation. DreamLLM operates on two fundamental principles. The first focuses on the generative modeling of both language and image posteriors by direct sampling in the raw multimodal space. This approach circumvents the limitations and information loss inherent to external feature extractors like CLIP, and a more thorough multimodal understanding is obtained. Second, DreamLLM fosters the generation of raw, interleaved documents, modeling both text and image contents, along with unstructured layouts. This allows DreamLLM to learn all conditional, marginal, and joint multimodal distributions effectively. As a result, DreamLLM is the first MLLM capable of generating free-form interleaved content. Comprehensive experiments highlight DreamLLM's superior performance as a zero-shot multimodal generalist, reaping from the enhanced learning synergy. Project page: https://dreamllm.github.io.
- Abstract(参考訳): 本稿では,マルチモーダル理解と創造の相乗効果が頻繁に見過ごされる多モーダル大規模言語モデル(MLLM)を初めて実現した学習フレームワークであるDreamLLMを提案する。
DreamLLM には2つの基本原理がある。
1つ目は、生マルチモーダル空間の直接サンプリングによる言語と画像後部の生成モデリングである。
このアプローチは、CLIPのような外部特徴抽出器固有の制限と情報損失を回避し、より詳細なマルチモーダル理解を得る。
第二に、DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
これにより、DreamLLMは条件、限界、共同のマルチモーダル分布を効果的に学習することができる。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
総合的な実験では、ゼロショットのマルチモーダルジェネラリストとしてのDreamLLMの優れたパフォーマンスが強調され、強化された学習シナジーの恩恵を受けている。
プロジェクトページ: https://dreamllm.github.io
関連論文リスト
- MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration [74.31268379055201]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。
効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-11-07T14:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。