Fugu-MT 論文翻訳(概要): LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

論文の概要: LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

arxiv url: http://arxiv.org/abs/2306.17107v2
Date: Fri, 2 Feb 2024 19:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 06:07:21.670054
Title: LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
Title（参考訳）: LLaVAR: テキストリッチ画像理解のための強化されたビジュアルインストラクションチューニング
Authors: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
Abstract要約: この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
参考スコア（独自算出の注目度）: 85.39419609430453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/.
Abstract（参考訳）: インストラクションチューニングは、人間と対話するLarge Language Models(LLM)の優れた能力を解き放つ。さらに、最近の命令追跡データセットには、視覚入力としての画像が含まれ、画像に基づく命令に対する応答を収集する。しかし、視覚的な命令調整モデルでは、画像内のテキストの詳細を十分に理解できない。この作業は、テキストに富んだ画像(例えば映画のポスター、本のカバーなど)で、現在の視覚的な命令チューニングパイプラインを強化する。具体的には、最初に公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。さらに、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。収集したデータと過去のマルチモーダル命令フォローデータを組み合わせることで、LLaVARはテキストベースのVQAデータセット上でのLLaVAモデルの能力を大幅に向上し(最大20%の精度向上)、ScienceQAでは91.42%の精度を達成する。 GPT-4に基づく命令追従評価は、自然画像とテキストリッチ画像の両方において、モデルの改善を示す。質的な分析を通じて、LLaVARはテキストと画像を組み合わせた最新の現実世界のオンラインコンテンツに基づいて、人間と有望な相互作用(推論、記述、実験など)を示す。コード/データ/モデルをhttps://llavar.github.io/で公開しています。

関連論文リスト

Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文参考訳（メタデータ） (2025-05-04T22:18:14Z)
A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation [45.40016648498223]
大規模なマルチモーダルモデルは、不十分なトレーニングデータのために、まだテキストリッチなイメージに苦戦している。 Self-Instructは、命令データを生成するためのアノテーションのない方法を提供するが、その品質は劣っている。
論文参考訳（メタデータ） (2024-12-20T21:55:15Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。 DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文参考訳（メタデータ） (2024-04-30T17:56:24Z)
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。 GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文参考訳（メタデータ） (2024-01-24T09:07:11Z)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文参考訳（メタデータ） (2023-12-23T11:10:43Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations [4.588028371034406]
画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。 ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
論文参考訳（メタデータ） (2022-11-14T05:17:51Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。