論文の概要: Learning the Visualness of Text Using Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.10434v2
- Date: Sun, 22 Oct 2023 19:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:25:15.378167
- Title: Learning the Visualness of Text Using Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルを用いたテキストの可視性学習
- Authors: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani
Nenkova
- Abstract要約: 視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
- 参考スコア(独自算出の注目度): 42.75864384249245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will enable
text-to-image retrieval and generation models to augment text with relevant
images. This is particularly challenging with long-form text as text-to-image
generation and retrieval models are often triggered for text that is designed
to be explicitly visual in nature, whereas long-form text could contain many
non-visual sentences. To this end, we curate a dataset of 3,620 English
sentences and their visualness scores provided by multiple human annotators. We
also propose a fine-tuning strategy that adapts large vision-language models
like CLIP by modifying the model's contrastive learning objective to map text
identified as non-visual to a common NULL image while matching visual text to
their corresponding images in the document. We evaluate the proposed approach
on its ability to (i) classify visual and non-visual text accurately, and (ii)
attend over words that are identified as visual in psycholinguistic studies.
Empirical evaluation indicates that our approach performs better than several
heuristics and baseline models for the proposed task. Furthermore, to highlight
the importance of modeling the visualness of text, we conduct qualitative
analyses of text-to-image generation systems like DALL-E. Project webpage:
https://gaurav22verma.github.io/text-visualness/
- Abstract(参考訳): 視覚テキストは人の心の中のイメージを誘発するが、非視覚テキストはそうしない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
テキスト・ツー・イメージ生成と検索モデルは、自然界においてはっきりと視覚的に設計されたテキストに対してしばしばトリガーされるが、長文には多くの非視覚的文が含まれる。
この目的のために,3,620個の英語文のデータセットと,複数のアノテータによる視覚スコアを収集した。
また,非視覚と認識されるテキストを共通のヌルイメージにマッピングするモデルのコントラスト学習目的を変更し,文書中の対応する画像と視覚テキストをマッチングすることにより,クリップのような大きな視覚言語モデルに適応させる微調整戦略を提案する。
提案するアプローチの能力を評価する。
(i)視覚的・非視覚的テキストを正確に分類し、
(二)心理言語学研究において視覚的に識別される単語に参画すること。
経験的評価は,提案手法が複数のヒューリスティックモデルやベースラインモデルよりも優れた性能を示す。
さらに,テキストの視覚的さをモデル化することの重要性を強調するため,dall-e のようなテキスト対画像生成システムの質的分析を行う。
プロジェクトWebページ: https://gaurav22verma.github.io/text-visualness/
関連論文リスト
- Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。