論文の概要: InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition
- arxiv url: http://arxiv.org/abs/2309.15112v5
- Date: Thu, 14 Dec 2023 17:21:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:06:55.522383
- Title: InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition
- Title(参考訳): InternLM-XComposer:高度なテキストイメージ理解と構成のための視覚言語大モデル
- Authors: Pan Zhang, Xiaoyi Dong, Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang,
Zhiyuan Zhao, Haodong Duan, Songyang Zhang, Shuangrui Ding, Wenwei Zhang,
Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng
Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
- Abstract要約: InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
- 参考スコア(独自算出の注目度): 111.65584066987036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose InternLM-XComposer, a vision-language large model that enables
advanced image-text comprehension and composition. The innovative nature of our
model is highlighted by three appealing properties: 1) Interleaved Text-Image
Composition: InternLM-XComposer can effortlessly generate coherent and
contextual articles that seamlessly integrate images, providing a more engaging
and immersive reading experience. Simply provide a writing instruction, and our
system will generate the corresponding manuscript. It can intelligently
identify the areas in the text where images would enhance the content and
automatically insert the most appropriate visual candidates. 2) Comprehension
with Rich Multilingual Knowledge: The text-image comprehension is empowered by
training on an extensive multi-modal multilingual database with carefully
crafted strategies, resulting in a deep understanding of visual content. 3)
State-of-the-art Performance: Our model consistently achieves state-of-the-art
results across various mainstream benchmarks for vision-language foundational
models, including MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench
(Chinese Cultural Benchmark), QBench and Tiny LVLM. Owing to the absence of
established metrics for quantitatively assessing text-image composition, we
have devised a robust evaluation procedure that comprises both human and
GPT4-Vision (GPT4-V) to ensure reliability. Notably, our InternLM-XComposer
achieves competitive text-image composition scores compared to public
solutions, including GPT4-V and GPT3.5. Collectively, InternLM-XComposer
seamlessly blends advanced text-image comprehension and composition,
revolutionizing vision-language interaction and offering new insights and
opportunities. The InternLM-XComposer model series are publicly available at
https://github.com/InternLM/InternLM-XComposer.
- Abstract(参考訳): InternLM-XComposerは、高度な画像テキスト理解と合成を可能にする視覚言語大モデルである。
私たちのモデルの革新的な性質は、3つの魅力的な性質によって強調される。
1)Interleaved Text- Image composition: InternLM-XComposerは、画像をシームレスに統合し、より魅力的で没入的な読書体験を提供するコヒーレントで文脈的な記事を生成することができる。
書記命令を単に提供すれば,本システムは対応する原稿を生成する。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
2) リッチ多言語知識の理解: テキストイメージの理解は、慎重に構築された戦略を持つ広範囲なマルチモーダル多言語データベースでトレーニングすることで、視覚的内容の深い理解をもたらす。
3) 最先端性能: 我々のモデルは, MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (China Cultural Benchmark), QBench, Tiny LVLM など, ビジョンベースモデルの様々な主要なベンチマークにおいて, 常に最先端の結果を達成している。
テキスト画像合成を定量的に評価するための確立された指標がないため、信頼性を確保するために、人間とgpt4-vision(gpt4-v)の両方を含む堅牢な評価手順を考案した。
特に、我々のInternLM-XComposerは、GPT4-VやGPT3.5といった公開ソリューションと比較して、競合するテキスト画像合成スコアを達成しています。
集合的に、InternLM-XComposerは高度なテキストイメージの理解と構成をシームレスにブレンドし、視覚と言語間の相互作用を革新し、新たな洞察と機会を提供する。
InternLM-XComposerモデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。
関連論文リスト
- ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-01-29T18:59:02Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。