Fugu-MT 論文翻訳(概要): Kosmos-2.5: A Multimodal Literate Model

論文の概要: Kosmos-2.5: A Multimodal Literate Model

arxiv url: http://arxiv.org/abs/2309.11419v1
Date: Wed, 20 Sep 2023 15:50:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 12:38:43.605619
Title: Kosmos-2.5: A Multimodal Literate Model
Title（参考訳）: kosmos-2.5:マルチモーダル文字モデル
Authors: Tengchao Lv, Yupan Huang, Jingye Chen, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, Shaoxiang Wu, Guoxin Wang, Cha Zhang, Furu Wei
Abstract要約: Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
参考スコア（独自算出の注目度）: 143.4565835051535
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present Kosmos-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on large-scale text-intensive images, Kosmos-2.5 excels in two distinct yet cooperative transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned its spatial coordinates within the image, and (2) producing structured text output that captures styles and structures into the markdown format. This unified multimodal literate capability is achieved through a shared Transformer architecture, task-specific prompts, and flexible text representations. We evaluate Kosmos-2.5 on end-to-end document-level text recognition and image-to-markdown text generation. Furthermore, the model can be readily adapted for any text-intensive image understanding task with different prompts through supervised fine-tuning, making it a general-purpose tool for real-world applications involving text-rich images. This work also paves the way for the future scaling of multimodal large language models.
Abstract（参考訳）: テキスト集約画像の機械読取のためのマルチモーダルリテラルモデルKosmos-2.5を提案する。大規模なテキスト集約画像に基づいて事前訓練されたKosmos-2.5は、(1) テキストの各ブロックが画像内の空間座標に割り当てられる空間的に認識可能なテキストブロックを生成し、(2) スタイルや構造をマークダウンフォーマットにキャプチャする構造化されたテキスト出力を生成する。この統合されたマルチモーダルリテラト機能は、共有トランスフォーマーアーキテクチャ、タスク固有のプロンプト、柔軟なテキスト表現によって実現される。 Kosmos-2.5 は文書レベルのエンドツーエンドテキスト認識と画像からマークダウンテキスト生成で評価される。さらに、教師付き微調整により、異なるプロンプトを持つ任意のテキスト集約画像理解タスクに容易に適応することができ、テキストリッチ画像を含む実世界のアプリケーションのための汎用ツールとなる。この作業はまた、マルチモーダルな大規模言語モデルの将来のスケーリングの道を開く。

関連論文リスト

LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs [52.79503055897109]
大規模マルチモーダル画像生成評価のための総合的データセットとベンチマークであるEvalMi-50Kを提案する。複数の次元から大きなマルチモーダルT2Iを生成するためのLMM4LMMを提案する。
論文参考訳（メタデータ） (2025-04-11T08:46:49Z)
HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文参考訳（メタデータ） (2024-12-25T20:36:29Z)
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output [138.18086961321146]
InternLM-XComposer-2.5 (IXC-2.5) は、長文入力と出力をサポートする汎用的な大規模言語モデルである。 IXC-2.5は様々なテキストイメージの理解と構成の応用に優れる。 IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回っている。
論文参考訳（メタデータ） (2024-07-03T17:59:21Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文参考訳（メタデータ） (2024-03-07T13:16:24Z)
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。 MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文参考訳（メタデータ） (2023-10-08T11:33:09Z)
Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文参考訳（メタデータ） (2023-08-08T15:43:59Z)
DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。 DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。また、RVL-CDIP文書分類における競合性能も達成する。
論文参考訳（メタデータ） (2023-05-23T16:34:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。