論文の概要: TextMonkey: An OCR-Free Large Multimodal Model for Understanding
Document
- arxiv url: http://arxiv.org/abs/2403.04473v1
- Date: Thu, 7 Mar 2024 13:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:05:21.906070
- Title: TextMonkey: An OCR-Free Large Multimodal Model for Understanding
Document
- Title(参考訳): TextMonkey: ドキュメント理解のためのOCRフリー大規模マルチモーダルモデル
- Authors: Yuliang Liu, Biao Yang, Qiang Liu, Zhang Li, Zhiyin Ma, Shuo Zhang,
Xiang Bai
- Abstract要約: テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
このアプローチは、複数の次元にわたる拡張を導入します。
提案手法は,各種ベンチマークデータセットのパフォーマンス向上に寄与する。
- 参考スコア(独自算出の注目度): 63.022717042350834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present TextMonkey, a large multimodal model (LMM) tailored for
text-centric tasks, including document question answering (DocVQA) and scene
text analysis. Our approach introduces enhancement across several dimensions:
by adopting Shifted Window Attention with zero-initialization, we achieve
cross-window connectivity at higher input resolutions and stabilize early
training; We hypothesize that images may contain redundant tokens, and by using
similarity to filter out significant tokens, we can not only streamline the
token length but also enhance the model's performance. Moreover, by expanding
our model's capabilities to encompass text spotting and grounding, and
incorporating positional information into responses, we enhance
interpretability and minimize hallucinations. Additionally, TextMonkey can be
finetuned to gain the ability to comprehend commands for clicking screenshots.
Overall, our method notably boosts performance across various benchmark
datasets, achieving increases of 5.2%, 6.9%, and 2.8% in Scene Text-Centric
VQA, Document Oriented VQA, and KIE, respectively, especially with a score of
561 on OCRBench, surpassing prior open-sourced large multimodal models for
document understanding. Code will be released at
https://github.com/Yuliang-Liu/Monkey.
- Abstract(参考訳): 文書質問応答(DocVQA)やシーンテキスト分析など,テキスト中心のタスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
提案手法では,ゼロ初期化によるシフトウィンドウアテンションの導入により,高い入力解像度でのクロスウィンドウ接続を実現し,早期訓練を安定化させることにより,画像に冗長なトークンを含む可能性があること,重要なトークンをフィルタリングする類似性を利用することで,トークン長の合理化だけでなく,モデルの性能の向上も図っている。
さらに,テキストスポッティングとグラウンド化を包含するモデルの能力を拡張し,位置情報を応答に組み込むことで,解釈可能性を高め,幻覚を最小化する。
さらに、textmonkeyを微調整して、スクリーンショットをクリックするコマンドを理解することもできる。
テキスト中心のvqa,ドキュメント指向のvqa,kieでは,それぞれ5.2%,6.9%,2.8%,特にocrbenchでは561点,ドキュメント理解のためにオープンソースの大規模マルチモーダルモデルを上回った。
コードはhttps://github.com/Yuliang-Liu/Monkeyでリリースされる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding [30.754200683466788]
文書理解のための大規模言語モデル(LayTextLLM)にインターリービングレイアウトとテキストを導入する。
LayTextLLMは、各バウンディングボックスを単一の埋め込みに投影し、テキストでインターリーブする。
また、キー情報抽出(KIE)と視覚質問応答(VQA)の性能向上も示す。
論文 参考訳(メタデータ) (2024-07-02T06:29:05Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。