論文の概要: KOSMOS-2.5: A Multimodal Literate Model
- arxiv url: http://arxiv.org/abs/2309.11419v2
- Date: Wed, 21 Aug 2024 16:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 23:15:31.713141
- Title: KOSMOS-2.5: A Multimodal Literate Model
- Title(参考訳): KOSMOS-2.5:マルチモーダルリテラルモデル
- Authors: Tengchao Lv, Yupan Huang, Jingye Chen, Yuzhong Zhao, Yilin Jia, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, Shaoxiang Wu, Guoxin Wang, Cha Zhang, Furu Wei,
- Abstract要約: テキスト集約画像の機械読取のためのマルチモーダルリテラルモデル KOSMOS-2.5 を提案する。
KOSMOS-2.5は2つの異なる相補的な転写タスクに優れる。
我々は文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネラリストを生み出した。
- 参考スコア(独自算出の注目度): 136.96172068766285
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The automatic reading of text-intensive images represents a significant advancement toward achieving Artificial General Intelligence (AGI). In this paper we present KOSMOS-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on a large-scale corpus of text-intensive images, KOSMOS-2.5 excels in two distinct yet complementary transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned spatial coordinates within the image, and (2) producing structured text output that captures both style and structure in markdown format. This unified multimodal literate capability is achieved through a shared decoder-only autoregressive Transformer architecture and task-specific prompts. Building on this foundation, we fine-tune KOSMOS-2.5 for document understanding tasks, resulting in a document understanding generalist named KOSMOS-2.5-CHAT. Additionally, a large corpus of 357.4 million document pages spanning diverse domains was curated for pre-training. We evaluate KOSMOS-2.5 on two newly proposed benchmarks, OCREval and MarkdownEval, for document-level text recognition and image-to-markdown generation, demonstrating impressive literate capabilities comparable to GPT-4o. KOSMOS-2.5-CHAT achieves performance comparable to other state-of-the-art generalists that are five times larger (1.3B vs. 7B) across nine text-rich visual question answering benchmarks. Models and code have been available at \url{https://aka.ms/kosmos25}.
- Abstract(参考訳): テキスト集約画像の自動読解は、人工知能(AGI)の実現に向けた大きな進歩を示している。
本稿では,テキスト集約画像の機械読取のためのマルチモーダルリテラルモデルKOSMOS-2.5を提案する。
テキスト集約画像の大規模コーパスに事前トレーニングされた KOSMOS-2.5 は,(1) テキストの各ブロックが画像内の空間座標に割り当てられる空間認識テキストブロックを生成し,(2) マークダウン形式でスタイルと構造をキャプチャする構造化テキスト出力を生成する。
この統合されたマルチモーダルリテラト機能は、共有デコーダのみの自己回帰トランスフォーマーアーキテクチャとタスク固有のプロンプトによって実現される。
この基礎の上に構築され、文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネリストを生み出した。
さらに、様々な領域にまたがる357.4百万の文書ページの大規模なコーパスが事前訓練のためにキュレーションされた。
OCREvalとMarkdownEvalという2つの新しいベンチマークで、文書レベルのテキスト認識と画像からマークダウン生成に KOSMOS-2.5 を評価し、GPT-4o に匹敵する優れた文字処理能力を示した。
KOSMOS-2.5-CHATは、9つのテキストリッチな視覚的質問応答ベンチマークの5倍(1.3B vs. 7B)の最先端のジェネラリストに匹敵するパフォーマンスを達成する。
モデルとコードは \url{https://aka.ms/kosmos25} で公開されている。
関連論文リスト
- InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output [138.18086961321146]
InternLM-XComposer-2.5 (IXC-2.5) は、長文入力と出力をサポートする汎用的な大規模言語モデルである。
IXC-2.5は様々なテキストイメージの理解と構成の応用に優れる。
IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-07-03T17:59:21Z) - LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。