Fugu-MT 論文翻訳(概要): InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

論文の概要: InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

arxiv url: http://arxiv.org/abs/2401.16420v1
Date: Mon, 29 Jan 2024 18:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 13:30:32.068863
Title: InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
Title（参考訳）: InternLM-XComposer2:視覚言語大モデルにおける自由形式のテキスト画像合成と理解の習得
Authors: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
Abstract要約: InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。 InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
参考スコア（独自算出の注目度）: 108.42241250772643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce InternLM-XComposer2, a cutting-edge vision-language model excelling in free-form text-image composition and comprehension. This model goes beyond conventional vision-language understanding, adeptly crafting interleaved text-image content from diverse inputs like outlines, detailed textual specifications, and reference images, enabling highly customizable content creation. InternLM-XComposer2 proposes a Partial LoRA (PLoRA) approach that applies additional LoRA parameters exclusively to image tokens to preserve the integrity of pre-trained language knowledge, striking a balance between precise vision understanding and text composition with literary talent. Experimental results demonstrate the superiority of InternLM-XComposer2 based on InternLM2-7B in producing high-quality long-text multi-modal content and its exceptional vision-language understanding performance across various benchmarks, where it not only significantly outperforms existing multimodal models but also matches or even surpasses GPT-4V and Gemini Pro in certain assessments. This highlights its remarkable proficiency in the realm of multimodal understanding. The InternLM-XComposer2 model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
Abstract（参考訳）: InternLM-XComposer2は、自由形式のテキスト画像合成と理解に優れた最先端の視覚言語モデルである。このモデルは従来の視覚言語理解を超えており、アウトライン、詳細なテキスト仕様、参照画像といった様々な入力からインターリーブされたテキスト画像コンテンツを作成し、高度にカスタマイズ可能なコンテンツ作成を可能にする。 InternLM-XComposer2は、事前訓練された言語知識の完全性を維持するために画像トークンのみに追加のLoRAパラメータを適用し、正確な視覚理解と文学的才能とのテキスト合成のバランスを崩す部分LoRA(PLoRA)アプローチを提案する。 InternLM2-7BをベースとしたInternLM-XComposer2の高品質な長文マルチモーダルコンテンツ作成における優位性と、既存のマルチモーダルモデルよりも優れているだけでなく、GPT-4VやGemini Proよりも優れた性能を示す。これはマルチモーダル理解の領域における卓越した熟練度を強調している。 7Bパラメータを持つInternLM-XComposer2モデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。

関連論文リスト

PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [25.673526096069548]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。 1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文参考訳（メタデータ） (2025-05-27T18:36:19Z)
Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。 3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文参考訳（メタデータ） (2025-01-13T06:41:23Z)
Visual Lexicon: Rich Image Features in Language Space [99.94214846451347]
ViLexは、リッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャする。 ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成する。言語空間に埋め込まれた画像として、ViLexトークンは自然言語の合成性を利用する。
論文参考訳（メタデータ） (2024-12-09T18:57:24Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis [18.876109299162138]
特殊設計されたセマンティックビジョンランゲージ統合エキスパート(Semantic Vision-Language Integration Expert, SemVIE)を組み込んだ,T2I世代のための新しいフレームワークであるMARSを紹介する。この革新的なコンポーネントは、言語情報と視覚情報を独立に処理し、ビジュアルコンポーネントを微調整しながらテキストコンポーネントを凍結することにより、事前訓練されたLCMを統合する。 MARSはSD1.5に必要なGPU日のうち9%しか必要としないが、様々なベンチマークで顕著な結果が得られる。
論文参考訳（メタデータ） (2024-07-10T12:52:49Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。しかし、複数の画像を含む文脈を理解するには不十分である。本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文参考訳（メタデータ） (2024-02-19T14:59:07Z)
Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文参考訳（メタデータ） (2023-10-12T09:39:17Z)
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文参考訳（メタデータ） (2023-09-26T17:58:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。