論文の概要: Question-controlled Text-aware Image Captioning
- arxiv url: http://arxiv.org/abs/2108.02059v1
- Date: Wed, 4 Aug 2021 13:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:12:12.622173
- Title: Question-controlled Text-aware Image Captioning
- Title(参考訳): 質問制御型テキスト認識画像キャプション
- Authors: Anwen Hu, Shizhe Chen, Qin Jin
- Abstract要約: 質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
- 参考スコア(独自算出の注目度): 41.53906032024941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For an image with multiple scene texts, different people may be interested in
different text information. Current text-aware image captioning models are not
able to generate distinctive captions according to various information needs.
To explore how to generate personalized text-aware captions, we define a new
challenging task, namely Question-controlled Text-aware Image Captioning
(Qc-TextCap). With questions as control signals, this task requires models to
understand questions, find related scene texts and describe them together with
objects fluently in human language. Based on two existing text-aware captioning
datasets, we automatically construct two datasets, ControlTextCaps and
ControlVizWiz to support the task. We propose a novel Geometry and Question
Aware Model (GQAM). GQAM first applies a Geometry-informed Visual Encoder to
fuse region-level object features and region-level scene text features with
considering spatial relationships. Then, we design a Question-guided Encoder to
select the most relevant visual features for each question. Finally, GQAM
generates a personalized text-aware caption with a Multimodal Decoder. Our
model achieves better captioning performance and question answering ability
than carefully designed baselines on both two datasets. With questions as
control signals, our model generates more informative and diverse captions than
the state-of-the-art text-aware captioning model. Our code and datasets are
publicly available at https://github.com/HAWLYQ/Qc-TextCap.
- Abstract(参考訳): 複数のシーンテキストを持つ画像では、異なる人々が異なるテキスト情報に興味を持っているかもしれない。
現在のテキスト認識画像キャプションモデルでは,様々な情報ニーズに応じて特徴的なキャプションを生成できない。
パーソナライズされたテキスト対応キャプションの生成方法を探るため,質問制御型テキスト対応画像キャプション(Qc-TextCap)という,新たな課題を定義した。
質問を制御信号として扱うと、このタスクは、質問を理解し、関連するシーンテキストを見つけ、それらを人間の言語で流用するオブジェクトと一緒に記述するモデルを必要とする。
既存の2つのテキスト対応キャプションデータセットに基づいて、タスクをサポートするために、 controltextcaps と controlvizwiz という2つのデータセットを自動的に構築する。
本稿では,GQAM(Geometry and Question Aware Model)を提案する。
GQAMはまず、空間的関係を考慮した領域レベルのオブジェクト特徴と領域レベルのシーンテキスト特徴を融合するために、幾何学的インフォームドビジュアルエンコーダを適用した。
次に,質問誘導エンコーダを設計し,質問毎に最も関連性の高い視覚的特徴を選択する。
最後に、GQAMはマルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
2つのデータセットのベースラインを慎重に設計するよりも,キャプション性能と質問応答性が向上する。
質問を制御信号として扱うことで、我々のモデルは最先端のテキスト認識キャプションモデルよりも情報的で多様なキャプションを生成する。
私たちのコードとデータセットはhttps://github.com/HAWLYQ/Qc-TextCapで公開されています。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
論文 参考訳(メタデータ) (2023-04-04T07:46:40Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language
Representation Learning with Pre-trained Sequence-to-Sequence Model [18.848107244522666]
TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。
この課題では、TextVQAタスクに生成モデルT5を使用します。
論文 参考訳(メタデータ) (2021-06-24T06:39:37Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。