論文の概要: TextMonkey: An OCR-Free Large Multimodal Model for Understanding
Document
- arxiv url: http://arxiv.org/abs/2403.04473v1
- Date: Thu, 7 Mar 2024 13:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:05:21.906070
- Title: TextMonkey: An OCR-Free Large Multimodal Model for Understanding
Document
- Title(参考訳): TextMonkey: ドキュメント理解のためのOCRフリー大規模マルチモーダルモデル
- Authors: Yuliang Liu, Biao Yang, Qiang Liu, Zhang Li, Zhiyin Ma, Shuo Zhang,
Xiang Bai
- Abstract要約: テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
このアプローチは、複数の次元にわたる拡張を導入します。
提案手法は,各種ベンチマークデータセットのパフォーマンス向上に寄与する。
- 参考スコア(独自算出の注目度): 63.022717042350834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present TextMonkey, a large multimodal model (LMM) tailored for
text-centric tasks, including document question answering (DocVQA) and scene
text analysis. Our approach introduces enhancement across several dimensions:
by adopting Shifted Window Attention with zero-initialization, we achieve
cross-window connectivity at higher input resolutions and stabilize early
training; We hypothesize that images may contain redundant tokens, and by using
similarity to filter out significant tokens, we can not only streamline the
token length but also enhance the model's performance. Moreover, by expanding
our model's capabilities to encompass text spotting and grounding, and
incorporating positional information into responses, we enhance
interpretability and minimize hallucinations. Additionally, TextMonkey can be
finetuned to gain the ability to comprehend commands for clicking screenshots.
Overall, our method notably boosts performance across various benchmark
datasets, achieving increases of 5.2%, 6.9%, and 2.8% in Scene Text-Centric
VQA, Document Oriented VQA, and KIE, respectively, especially with a score of
561 on OCRBench, surpassing prior open-sourced large multimodal models for
document understanding. Code will be released at
https://github.com/Yuliang-Liu/Monkey.
- Abstract(参考訳): 文書質問応答(DocVQA)やシーンテキスト分析など,テキスト中心のタスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
提案手法では,ゼロ初期化によるシフトウィンドウアテンションの導入により,高い入力解像度でのクロスウィンドウ接続を実現し,早期訓練を安定化させることにより,画像に冗長なトークンを含む可能性があること,重要なトークンをフィルタリングする類似性を利用することで,トークン長の合理化だけでなく,モデルの性能の向上も図っている。
さらに,テキストスポッティングとグラウンド化を包含するモデルの能力を拡張し,位置情報を応答に組み込むことで,解釈可能性を高め,幻覚を最小化する。
さらに、textmonkeyを微調整して、スクリーンショットをクリックするコマンドを理解することもできる。
テキスト中心のvqa,ドキュメント指向のvqa,kieでは,それぞれ5.2%,6.9%,2.8%,特にocrbenchでは561点,ドキュメント理解のためにオープンソースの大規模マルチモーダルモデルを上回った。
コードはhttps://github.com/Yuliang-Liu/Monkeyでリリースされる。
関連論文リスト
- Monkey: Image Resolution and Text Label Are Important Things for Large
Multi-modal Models [57.59547909784445]
大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて有望であるが、高解像度入力と詳細なシーン理解に苦慮している。
LMM機能を強化するためにMonkeyを導入します。
モンキーは入力画像を均一なパッチに分割して処理し、それぞれのサイズ(例:448x448)をよく訓練されたビジョンエンコーダのトレーニングに使用する。
解像度は1344x896ピクセルまでで、複雑な視覚情報を詳細にキャプチャできる。
論文 参考訳(メタデータ) (2023-11-11T16:37:41Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Generative Pretraining in Multimodality [35.884551730519384]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - Cross-Modal Attribute Insertions for Assessing the Robustness of
Vision-and-Language Learning [9.949354222717773]
クロスモーダル属性挿入は、視覚・言語データに対する現実的な摂動戦略である。
モーダル・インサートを用いた入力テキストの増大は,テキスト・ツー・モーダル検索やモーダル・エンターメントにおける最先端のアプローチに悪影響を及ぼすことが判明した。
クラウドソースアノテーションは、クロスモーダルな挿入がマルチモーダルデータの品質向上につながることを示している。
論文 参考訳(メタデータ) (2023-06-19T17:00:03Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。