論文の概要: Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA
- arxiv url: http://arxiv.org/abs/2304.01603v1
- Date: Tue, 4 Apr 2023 07:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:46:48.620914
- Title: Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA
- Title(参考訳): Locate Then Generate: シーンテキストVQAのためのバウンディングボックスによる視覚と言語をブリッジする
- Authors: Yongxin Zhu, Zhen Liu, Yukang Liang, Xin Li, Hao Liu, Changcun Bao,
Linli Xu
- Abstract要約: STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
- 参考スコア(独自算出の注目度): 15.74007067413724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel multi-modal framework for Scene Text Visual
Question Answering (STVQA), which requires models to read scene text in images
for question answering. Apart from text or visual objects, which could exist
independently, scene text naturally links text and visual modalities together
by conveying linguistic semantics while being a visual object in an image
simultaneously. Different to conventional STVQA models which take the
linguistic semantics and visual semantics in scene text as two separate
features, in this paper, we propose a paradigm of "Locate Then Generate" (LTG),
which explicitly unifies this two semantics with the spatial bounding box as a
bridge connecting them. Specifically, at first, LTG locates the region in an
image that may contain the answer words with an answer location module (ALM)
consisting of a region proposal network and a language refinement network, both
of which can transform to each other with one-to-one mapping via the scene text
bounding box. Next, given the answer words selected by ALM, LTG generates a
readable answer sequence with an answer generation module (AGM) based on a
pre-trained language model. As a benefit of the explicit alignment of the
visual and linguistic semantics, even without any scene text based pre-training
tasks, LTG can boost the absolute accuracy by +6.06% and +6.92% on the TextVQA
dataset and the ST-VQA dataset respectively, compared with a non-pre-training
baseline. We further demonstrate that LTG effectively unifies visual and text
modalities through the spatial bounding box connection, which is
underappreciated in previous methods.
- Abstract(参考訳): 本稿では,STVQA(Scene Text Visual Question Answering)のための新しいマルチモーダルフレームワークを提案する。
独立して存在することができるテキストや視覚オブジェクトとは別に、シーンテキストは自然にテキストと視覚のモダリティを結合し、画像内の視覚オブジェクトであると同時に言語意味を伝達する。
本稿では,シーンテキストにおける言語意味論と視覚意味論を2つの異なる特徴として捉えた従来のstvqaモデルとは異なり,これら2つの意味論を結合するブリッジとして空間境界ボックスと明示的に統合する"locate then generation"(ltg)のパラダイムを提案する。
具体的には、当初、LTGは、応答語を含む領域を領域提案ネットワークと言語洗練ネットワークとからなる応答位置モジュール(ALM)で特定し、どちらもシーンテキストバウンディングボックスを介して1対1のマッピングで変換することができる。
次に、ALMによって選択された回答語が与えられた場合、LTGは事前訓練された言語モデルに基づいて、回答生成モジュール(AGM)を備えた読み出し可能な回答シーケンスを生成する。
視覚的および言語的意味論の明示的なアライメントの利点として、シーンテキストベースの事前訓練タスクがなくても、LTGはテキストVQAデータセットとST-VQAデータセットの絶対精度を、非事前訓練ベースラインと比較して+6.06%、+6.92%向上させることができる。
さらに,従来の手法では不十分であった空間境界ボックス接続により,LTGが視覚とテキストのモダリティを効果的に統一することを示した。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - Question-controlled Text-aware Image Captioning [41.53906032024941]
質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
論文 参考訳(メタデータ) (2021-08-04T13:34:54Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。