論文の概要: InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model
- arxiv url: http://arxiv.org/abs/2401.16420v1
- Date: Mon, 29 Jan 2024 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:30:32.068863
- Title: InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model
- Title(参考訳): InternLM-XComposer2:視覚言語大モデルにおける自由形式のテキスト画像合成と理解の習得
- Authors: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke
Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang,
Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen,
Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
- Abstract要約: InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 108.42241250772643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce InternLM-XComposer2, a cutting-edge vision-language model
excelling in free-form text-image composition and comprehension. This model
goes beyond conventional vision-language understanding, adeptly crafting
interleaved text-image content from diverse inputs like outlines, detailed
textual specifications, and reference images, enabling highly customizable
content creation. InternLM-XComposer2 proposes a Partial LoRA (PLoRA) approach
that applies additional LoRA parameters exclusively to image tokens to preserve
the integrity of pre-trained language knowledge, striking a balance between
precise vision understanding and text composition with literary talent.
Experimental results demonstrate the superiority of InternLM-XComposer2 based
on InternLM2-7B in producing high-quality long-text multi-modal content and its
exceptional vision-language understanding performance across various
benchmarks, where it not only significantly outperforms existing multimodal
models but also matches or even surpasses GPT-4V and Gemini Pro in certain
assessments. This highlights its remarkable proficiency in the realm of
multimodal understanding. The InternLM-XComposer2 model series with 7B
parameters are publicly available at
https://github.com/InternLM/InternLM-XComposer.
- Abstract(参考訳): InternLM-XComposer2は、自由形式のテキスト画像合成と理解に優れた最先端の視覚言語モデルである。
このモデルは従来の視覚言語理解を超えており、アウトライン、詳細なテキスト仕様、参照画像といった様々な入力からインターリーブされたテキスト画像コンテンツを作成し、高度にカスタマイズ可能なコンテンツ作成を可能にする。
InternLM-XComposer2は、事前訓練された言語知識の完全性を維持するために画像トークンのみに追加のLoRAパラメータを適用し、正確な視覚理解と文学的才能とのテキスト合成のバランスを崩す部分LoRA(PLoRA)アプローチを提案する。
InternLM2-7BをベースとしたInternLM-XComposer2の高品質な長文マルチモーダルコンテンツ作成における優位性と、既存のマルチモーダルモデルよりも優れているだけでなく、GPT-4VやGemini Proよりも優れた性能を示す。
これはマルチモーダル理解の領域における卓越した熟練度を強調している。
7Bパラメータを持つInternLM-XComposer2モデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。
関連論文リスト
- Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文 参考訳(メタデータ) (2023-09-26T17:58:20Z) - DreamLLM: Synergistic Multimodal Comprehension and Creation [59.38614654154804]
DreamLLMはマルチモーダル大規模言語モデル(MLLM)を初めて実現した学習フレームワークである
DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
論文 参考訳(メタデータ) (2023-09-20T17:58:05Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [20.320610571403222]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。
我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文 参考訳(メタデータ) (2023-06-09T23:51:11Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。