論文の概要: TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens
- arxiv url: http://arxiv.org/abs/2410.05261v1
- Date: Mon, 7 Oct 2024 17:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:57:23.975586
- Title: TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens
- Title(参考訳): TextHawk2: バイリンガルOCRと16倍低額のグラウンドリングのための大型ビジョンランゲージモデルExcel
- Authors: Ya-Qi Yu, Minghui Liao, Jiwen Zhang, Jihao Wu,
- Abstract要約: 汎用, OCR, 接地作業において, 画像トークンの16倍の精度で, きめ細かな認識と, 最先端の性能を示すバイリンガルLVLMであるTextHawk2を提案する。
我々は、LVLMコトレーニングを通じて視覚エンコーダを強化し、中国のOCRや接地のようなこれまで目に見えないタスクの可能性を解き放つ。
我々はTextHawk2を複数のベンチマークで評価し、継続的に優れたパフォーマンスを提供し、同様のスケールのクローズドソースモデルより優れています。
- 参考スコア(独自算出の注目度): 9.453667770656644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reading dense text and locating objects within images are fundamental abilities for Large Vision-Language Models (LVLMs) tasked with advanced jobs. Previous LVLMs, including superior proprietary models like GPT-4o, have struggled to excel in both tasks simultaneously. Moreover, previous LVLMs with fine-grained perception cost thousands of tokens per image, making them resource-intensive. We present TextHawk2, a bilingual LVLM featuring efficient fine-grained perception and demonstrating cutting-edge performance across general-purpose, OCR, and grounding tasks with 16 times fewer image tokens. Critical improvements include: (1) Token Compression: Building on the efficient architecture of its predecessor, TextHawk2 significantly reduces the number of tokens per image by 16 times, facilitating training and deployment of the TextHawk series with minimal resources. (2) Visual Encoder Reinforcement: We enhance the visual encoder through LVLM co-training, unlocking its potential for previously unseen tasks like Chinese OCR and grounding. (3) Data Diversity: We maintain a comparable scale of 100 million samples while diversifying the sources of pre-training data. We assess TextHawk2 across multiple benchmarks, where it consistently delivers superior performance and outperforms closed-source models of similar scale, such as achieving 78.4% accuracy on OCRBench, 81.4% accuracy on ChartQA, 89.6% ANLS on DocVQA, and 88.1% accuracy@0.5 on RefCOCOg-test.
- Abstract(参考訳): 高度なジョブを扱うLVLM(Large Vision-Language Models)には,高密度テキストの読み込みと画像内のオブジェクトの配置が基本的機能である。
GPT-4oのような優れたプロプライエタリなモデルを含む以前のLVLMは、両方のタスクを同時にこなすのに苦労した。
さらに、よりきめ細かい知覚を持つ以前のLVLMでは、画像ごとに数千のトークンが費やされ、リソース集約化されていた。
汎用, OCR, 接地作業において, 画像トークンの16倍の精度で, きめ細かな認識と, 最先端の性能を示すバイリンガルLVLMであるTextHawk2を提案する。
1)Token Compression: 前者の効率的なアーキテクチャに基づいて構築されたTextHawk2は、画像毎のトークン数を16倍に削減し、最小限のリソースでTextHawkシリーズのトレーニングとデプロイを容易にする。
2) 視覚エンコーダ強化:LVLMコトレーニングによる視覚エンコーダの強化,中国のOCRや接地といった未確認タスクの可能性を解き放つ。
(3) データ多様性: トレーニング済みデータのソースを多様化しながら、1億のサンプルと同等のスケールを維持します。
我々は、複数のベンチマークでTextHawk2を評価し、OCRBenchで78.4%の精度、ChartQAで81.4%の精度、DocVQAで89.6%のANLS、RefCOCOg-testで88.1%の精度@0.5といった、同様のスケールのクローズドソースモデルに対して、パフォーマンスとパフォーマンスを一貫して向上させる。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale
Efficient Pretraining [26.262677587795242]
我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。
このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。
BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
論文 参考訳(メタデータ) (2024-01-29T05:43:33Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。