論文の概要: TRINS: Towards Multimodal Language Models that Can Read
- arxiv url: http://arxiv.org/abs/2406.06730v1
- Date: Mon, 10 Jun 2024 18:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:25:28.284265
- Title: TRINS: Towards Multimodal Language Models that Can Read
- Title(参考訳): TRINS: 読めるマルチモーダル言語モデルを目指して
- Authors: Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun,
- Abstract要約: TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
- 参考スコア(独自算出の注目度): 61.17806538631744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal language models have shown remarkable proficiency in understanding and editing images. However, a majority of these visually-tuned models struggle to comprehend the textual content embedded in images, primarily due to the limitation of training data. In this work, we introduce TRINS: a Text-Rich image INStruction dataset, with the objective of enhancing the reading ability of the multimodal large language model. TRINS is built upon LAION using hybrid data annotation strategies that include machine-assisted and human-assisted annotation processes. It contains 39,153 text-rich images, captions, and 102,437 questions. Specifically, we show that the number of words per annotation in TRINS is significantly longer than that of related datasets, providing new challenges. Furthermore, we introduce a simple and effective architecture, called a Language-vision Reading Assistant (LaRA), which is good at understanding textual content within images. LaRA outperforms existing state-of-the-art multimodal large language models on the TRINS dataset, as well as other classical benchmarks. Lastly, we conducted a comprehensive evaluation with TRINS on various text-rich image understanding and generation tasks, demonstrating its effectiveness.
- Abstract(参考訳): 大規模なマルチモーダル言語モデルは、画像の理解と編集に優れた能力を示している。
しかし、これらの視覚的に調整されたモデルのほとんどは、主にトレーニングデータの制限のために、画像に埋め込まれたテキストの内容を理解するのに苦労している。
本稿では,テキストリッチ画像INStructionデータセットであるTRINSを紹介する。
TRINSは、マシンアシストおよびヒューマンアシストアノテーションプロセスを含むハイブリッドデータアノテーション戦略を使用して、LAION上に構築されている。
39,153の画像、キャプション、102,437の質問が含まれている。
具体的には、TRINSにおけるアノテーション1語あたりの単語数は、関連するデータセットの単語よりもかなり長いことを示し、新しい課題を提供する。
さらに,Language-vision Reading Assistant (LaRA) と呼ばれる,画像中のテキスト内容の理解に長けた,シンプルで効果的なアーキテクチャを導入する。
LaRAは、TRINSデータセット上の既存の最先端のマルチモーダルな大規模言語モデルや、他の古典的なベンチマークよりも優れています。
最後に, TRINSを用いて, テキストに富んだ画像理解・生成タスクの総合的な評価を行い, その効果を実証した。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual
Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。
witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。
WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文 参考訳(メタデータ) (2021-03-02T18:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。