Fugu-MT 論文翻訳(概要): Learning the Visualness of Text Using Large Vision-Language Models

論文の概要: Learning the Visualness of Text Using Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2305.10434v2
Date: Sun, 22 Oct 2023 19:06:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 12:25:15.378167
Title: Learning the Visualness of Text Using Large Vision-Language Models
Title（参考訳）: 大規模視覚言語モデルを用いたテキストの可視性学習
Authors: Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova
Abstract要約: 視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
参考スコア（独自算出の注目度）: 42.75864384249245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual text evokes an image in a person's mind, while non-visual text fails to do so. A method to automatically detect visualness in text will enable text-to-image retrieval and generation models to augment text with relevant images. This is particularly challenging with long-form text as text-to-image generation and retrieval models are often triggered for text that is designed to be explicitly visual in nature, whereas long-form text could contain many non-visual sentences. To this end, we curate a dataset of 3,620 English sentences and their visualness scores provided by multiple human annotators. We also propose a fine-tuning strategy that adapts large vision-language models like CLIP by modifying the model's contrastive learning objective to map text identified as non-visual to a common NULL image while matching visual text to their corresponding images in the document. We evaluate the proposed approach on its ability to (i) classify visual and non-visual text accurately, and (ii) attend over words that are identified as visual in psycholinguistic studies. Empirical evaluation indicates that our approach performs better than several heuristics and baseline models for the proposed task. Furthermore, to highlight the importance of modeling the visualness of text, we conduct qualitative analyses of text-to-image generation systems like DALL-E. Project webpage: https://gaurav22verma.github.io/text-visualness/
Abstract（参考訳）: 視覚テキストは人の心の中のイメージを誘発するが、非視覚テキストはそうしない。テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。テキスト・ツー・イメージ生成と検索モデルは、自然界においてはっきりと視覚的に設計されたテキストに対してしばしばトリガーされるが、長文には多くの非視覚的文が含まれる。この目的のために,3,620個の英語文のデータセットと,複数のアノテータによる視覚スコアを収集した。また,非視覚と認識されるテキストを共通のヌルイメージにマッピングするモデルのコントラスト学習目的を変更し,文書中の対応する画像と視覚テキストをマッチングすることにより,クリップのような大きな視覚言語モデルに適応させる微調整戦略を提案する。提案するアプローチの能力を評価する。 (i)視覚的・非視覚的テキストを正確に分類し、 (二)心理言語学研究において視覚的に識別される単語に参画すること。経験的評価は,提案手法が複数のヒューリスティックモデルやベースラインモデルよりも優れた性能を示す。さらに,テキストの視覚的さをモデル化することの重要性を強調するため,dall-e のようなテキスト対画像生成システムの質的分析を行う。プロジェクトWebページ: https://gaurav22verma.github.io/text-visualness/

関連論文リスト

SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection [4.013156524547072]
本稿では,多文テキスト検出機能を備えた意味認識型視覚言語モデルSAViL-Detを紹介する。提案フレームワークは,テキストプロンプトから視覚的特徴への微粒な意味情報を,モーダルな注意を通して適応的に伝達する。挑戦的なベンチマークの実験では、提案手法の有効性が示されている。
論文参考訳（メタデータ） (2025-07-27T09:16:39Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文参考訳（メタデータ） (2024-05-31T15:17:47Z)
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。 GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文参考訳（メタデータ） (2024-01-24T09:07:11Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。 VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文参考訳（メタデータ） (2021-08-22T07:56:24Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。