論文の概要: Learning the Visualness of Text Using Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.10434v1
- Date: Thu, 11 May 2023 17:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-21 10:36:00.644600
- Title: Learning the Visualness of Text Using Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルを用いたテキストの可視性学習
- Authors: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani
Nenkova
- Abstract要約: テキスト中の視覚を自動的に検出する方法は、関連する画像でテキストを拡大する機能を解放する。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
テキスト入力のみからテキストの視覚性を評価するタスクにCLIPのような大規模視覚言語モデルを適用するための微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 37.08023291224046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual text evokes an image in a person's mind, while non-visual text fails
to do so. A method to automatically detect visualness in text will unlock the
ability to augment text with relevant images, as neural text-to-image
generation and retrieval models operate on the implicit assumption that the
input text is visual in nature. We curate a dataset of 3,620 English sentences
and their visualness scores provided by multiple human annotators.
Additionally, we use documents that contain text and visual assets to create a
distantly supervised corpus of document text and associated images. We also
propose a fine-tuning strategy that adapts large vision-language models like
CLIP that assume a one-to-one correspondence between text and image to the task
of scoring text visualness from text input alone. Our strategy involves
modifying the model's contrastive learning objective to map text identified as
non-visual to a common NULL image while matching visual text to their
corresponding images in the document. We evaluate the proposed approach on its
ability to (i) classify visual and non-visual text accurately, and (ii) attend
over words that are identified as visual in psycholinguistic studies. Empirical
evaluation indicates that our approach performs better than several heuristics
and baseline models for the proposed task. Furthermore, to highlight the
importance of modeling the visualness of text, we conduct qualitative analyses
of text-to-image generation systems like DALL-E.
- Abstract(参考訳): 視覚テキストは人の心の中のイメージを誘発するが、非視覚テキストはそうしない。
テキスト内の視覚を自動的に検出する方法は、入力テキストが本質的に視覚的であるという暗黙の仮定に基づいて、ニューラルネットワークによる画像生成と検索モデルが動作するため、関連する画像でテキストを拡張できる。
3,620の英文のデータセットと、複数の人間の注釈者が提供する視覚スコアをキュレートした。
さらに,テキストと視覚的アセットを含む文書を用いて,文書テキストと関連画像の遠隔教師付きコーパスを作成する。
また,テキスト入力のみからテキストの視覚性を評価するタスクに対して,テキストと画像の1対1対応を仮定するCLIPのような大規模視覚言語モデルを適用するための微調整戦略を提案する。
本手法は,非視覚と認識されるテキストを共通のヌル画像にマッピングし,文書中の対応する画像と視覚的テキストをマッチングする,モデルのコントラスト学習目標を変更することを目的とする。
提案するアプローチの能力を評価する。
(i)視覚的・非視覚的テキストを正確に分類し、
(二)心理言語学研究において視覚的に識別される単語に参画すること。
経験的評価は,提案手法が複数のヒューリスティックモデルやベースラインモデルよりも優れた性能を示す。
さらに,テキストの視覚的さをモデル化することの重要性を強調するため,dall-e のようなテキスト対画像生成システムの質的分析を行う。
関連論文リスト
- Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。