論文の概要: A Token-level Text Image Foundation Model for Document Understanding
- arxiv url: http://arxiv.org/abs/2503.02304v1
- Date: Tue, 04 Mar 2025 06:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:58.642128
- Title: A Token-level Text Image Foundation Model for Document Understanding
- Title(参考訳): 文書理解のためのトークンレベルのテキスト画像基盤モデル
- Authors: Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang,
- Abstract要約: TokenOCRは、テキストイメージ関連のタスクに特化して設計された、トークンレベルの視覚基盤モデルである。
TokenOCRの事前トレーニングを容易にするために、トークンレベルの最初の画像テキストデータセットであるTokenITを構築する高品質なデータ生成パイプラインも考案した。
また,従来のVFMをTokenOCRにシームレスに置き換えて,VQAベースの文書理解タスクのための文書レベルのMLLMであるTokenVLを構築する。
- 参考スコア(独自算出の注目度): 46.298800262265004
- License:
- Abstract: In recent years, general visual foundation models (VFMs) have witnessed increasing adoption, particularly as image encoders for popular multi-modal large language models (MLLMs). However, without semantically fine-grained supervision, these models still encounter fundamental prediction errors in the context of downstream text-image-related tasks, i.e., perception, understanding and reasoning with images containing small and dense texts. To bridge this gap, we develop TokenOCR, the first token-level visual foundation model specifically tailored for text-image-related tasks, designed to support a variety of traditional downstream applications. To facilitate the pretraining of TokenOCR, we also devise a high-quality data production pipeline that constructs the first token-level image text dataset, TokenIT, comprising 20 million images and 1.8 billion token-mask pairs. Furthermore, leveraging this foundation with exceptional image-as-text capability, we seamlessly replace previous VFMs with TokenOCR to construct a document-level MLLM, TokenVL, for VQA-based document understanding tasks. Finally, extensive experiments demonstrate the effectiveness of TokenOCR and TokenVL. Code, datasets, and weights will be available at https://token-family.github.io/TokenOCR_project.
- Abstract(参考訳): 近年,一般的な視覚基盤モデル (VFM) が普及しており,特にMLLM (Multi-modal large language model) のイメージエンコーダとして採用されている。
しかし、意味的にきめ細かな監督がなければ、これらのモデルは下流のテキスト画像関連タスク、すなわち、小さくて密度の高いテキストを含む画像に対する知覚、理解、推論の文脈において、基本的な予測エラーに遭遇する。
このギャップを埋めるために、さまざまなダウンストリームアプリケーションをサポートするように設計されたテキスト画像関連タスクに特化して設計されたトークンレベルの視覚基盤モデルであるTokenOCRを開発した。
TokenOCRの事前トレーニングを容易にするために,2000万枚の画像と18億枚のトークンマスクペアからなるトークンレベルの最初の画像テキストデータセットであるTokenITを構築する,高品質なデータ生成パイプラインも考案した。
さらに,VQAに基づく文書理解タスクのための文書レベルのMLLMであるTokenVLを構築するために,従来のVFMをTokenOCRにシームレスに置き換える。
最後に、TokenOCRとTokenVLの有効性について広範な実験を行った。
コード、データセット、ウェイトはhttps://token- Family.github.io/TokenOCR_project.orgから入手できる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens [46.361925096761915]
テキスト・アウェア・トランスフォーマーを用いた1次元トケナイザ(TA-TiTok)について紹介する。
TA-TiTokは、離散的または連続的な1次元トークンを利用することができる効率的で強力な画像トークンである。
また,オープンデータに特化して訓練されたMasked Generative Models (MaskGen) のファミリーについても紹介する。
論文 参考訳(メタデータ) (2025-01-13T22:37:17Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - MATE: Meet At The Embedding -- Connecting Images with Long Texts [37.27283238166393]
Meet At The Embedding (MATE)は、大型言語モデル(LLM)とビジョン言語モデル(VLM)の機能を組み合わせた、新しいアプローチである。
我々は、VLMのテキストエンコーダを、長文の理解に優れたLLMベースのエンコーダに置き換える。
画像と長いテキストを接続するタスクを評価するために,2つの新たなクロスモーダル検索ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-26T14:10:00Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。