論文の概要: Multimodal grid features and cell pointers for Scene Text Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2006.00923v2
- Date: Thu, 25 Jun 2020 10:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:26:13.958767
- Title: Multimodal grid features and cell pointers for Scene Text Visual
Question Answering
- Title(参考訳): Scene Text Visual Question Answeringのためのマルチモーダルグリッド機能とセルポインタ
- Authors: Llu\'is G\'omez, Ali Furkan Biten, Rub\`en Tito, Andr\'es Mafla,
Mar\c{c}al Rusi\~nol, Ernest Valveny, Dimosthenis Karatzas
- Abstract要約: 本稿では,シーンテキストによる視覚的質問応答のタスクのための新しいモデルを提案する。
問題に適応したマルチモーダルな特徴に対応するアテンションメカニズムに基づいている。
実験では、2つの標準データセットで競合性能を示す。
- 参考スコア(独自算出の注目度): 7.834170106487722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new model for the task of scene text visual question
answering, in which questions about a given image can only be answered by
reading and understanding scene text that is present in it. The proposed model
is based on an attention mechanism that attends to multi-modal features
conditioned to the question, allowing it to reason jointly about the textual
and visual modalities in the scene. The output weights of this attention module
over the grid of multi-modal spatial features are interpreted as the
probability that a certain spatial location of the image contains the answer
text the to the given question. Our experiments demonstrate competitive
performance in two standard datasets. Furthermore, this paper provides a novel
analysis of the ST-VQA dataset based on a human performance study.
- Abstract(参考訳): そこで本稿では,シーンテキストの読み解きと理解によってのみ,与えられた画像に関する質問に回答できるシーンテキストの視覚的質問応答のタスクのための新しいモデルを提案する。
提案モデルは,質問に条件づけられたマルチモーダル特徴に適応する注意機構に基づき,場面のテクスト的・視覚的モダリティを共同で判断する。
多モード空間特徴グリッド上のこの注目モジュールの出力重みは、画像の特定の空間的位置が与えられた質問に対する回答テキストを含む確率として解釈される。
実験では、2つの標準データセットで競合性能を示す。
さらに,本研究では,ヒトのパフォーマンス調査に基づくST-VQAデータセットの新規解析を行った。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - VTQA: Visual Text Question Answering via Entity Alignment and
Cross-Media Reasoning [21.714382546678053]
画像テキストペア10124に基づいて,23,781の質問を含むデータセットを新たに提案する。
この課題の目的は、マルチメディアエンティティアライメント、マルチステップ推論、オープンな回答生成が可能なモデルを開発し、ベンチマークすることである。
論文 参考訳(メタデータ) (2023-03-05T10:32:26Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling [12.233796960280944]
Text-VQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的としている。
LOGOSは、この問題を複数の側面から解決しようとする新しいモデルである。
論文 参考訳(メタデータ) (2021-08-20T01:31:51Z) - Finding the Evidence: Localization-aware Answer Prediction for Text
Visual Question Answering [8.81824569181583]
本稿では,この課題に対処するローカライズ対応回答予測ネットワーク(LaAP-Net)を提案する。
我々のLaAP-Netは、質問に対する回答を生成するだけでなく、生成された回答の証拠としてバウンディングボックスを予測する。
提案するLaAP-Netは、テキストVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも顕著なマージンで優れている。
論文 参考訳(メタデータ) (2020-10-06T09:46:20Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。