論文の概要: Towards Escaping from Language Bias and OCR Error: Semantics-Centered
Text Visual Question Answering
- arxiv url: http://arxiv.org/abs/2203.12929v1
- Date: Thu, 24 Mar 2022 08:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 15:00:27.698511
- Title: Towards Escaping from Language Bias and OCR Error: Semantics-Centered
Text Visual Question Answering
- Title(参考訳): 言語バイアスとocrエラーから逃れる:意味論中心のテキストビジュアル質問応答
- Authors: Chengyang Fang, Gangyan Zeng, Yu Zhou, Daiqing Wu, Can Ma, Dayong Hu,
Weiping Wang
- Abstract要約: シーンイメージのテキストは、シーン理解と推論のための重要な情報を伝える。
現在のTextVQAモデルはテキスト中心ではなく、いくつかの制限に悩まされている。
本稿では,インスタンスレベルのコントラスト型セマンティックな予測モジュールとセマンティックス中心のトランスフォーマーモジュールからなるセマンティックス中心ネットワーク(SC-Net)を提案する。
- 参考スコア(独自算出の注目度): 14.010472385359163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Texts in scene images convey critical information for scene understanding and
reasoning. The abilities of reading and reasoning matter for the model in the
text-based visual question answering (TextVQA) process. However, current
TextVQA models do not center on the text and suffer from several limitations.
The model is easily dominated by language biases and optical character
recognition (OCR) errors due to the absence of semantic guidance in the answer
prediction process. In this paper, we propose a novel Semantics-Centered
Network (SC-Net) that consists of an instance-level contrastive semantic
prediction module (ICSP) and a semantics-centered transformer module (SCT).
Equipped with the two modules, the semantics-centered model can resist the
language biases and the accumulated errors from OCR. Extensive experiments on
TextVQA and ST-VQA datasets show the effectiveness of our model. SC-Net
surpasses previous works with a noticeable margin and is more reasonable for
the TextVQA task.
- Abstract(参考訳): シーンイメージのテキストは、シーン理解と推論のための重要な情報を伝える。
テキストベースの視覚的質問応答(TextVQA)プロセスにおけるモデルに対する読み書きと推論の能力。
しかし、現在のTextVQAモデルはテキスト中心ではなく、いくつかの制限がある。
このモデルは,応答予測プロセスにおいて意味的ガイダンスが存在しないため,言語バイアスや光学的文字認識(OCR)誤差によって容易に支配される。
本稿では,インスタンスレベルのコントラスト・セマンティクス予測モジュール (icsp) とセマンティクス中心のトランスフォーマーモジュール (sct) からなる,新しいセマンティクス中心ネットワーク (sc-net) を提案する。
2つのモジュールを装備したセマンティックス中心のモデルは、言語バイアスとOCRからの累積エラーに抵抗することができる。
TextVQAとST-VQAデータセットの大規模な実験は、我々のモデルの有効性を示している。
SC-Netはそれまでの成果をはるかに上回り、TextVQAタスクには適している。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [36.19590638188108]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z) - LaTr: Layout-Aware Transformer for Scene-Text VQA [8.390314291424263]
STVQA(Scene Text Visual Question Answering)のための新しいアーキテクチャを提案する。
スキャンした文書にこの事前学習方式を適用することは、自然画像を使用するよりも、ある程度の利点があることを示す。
既存の手法と比較して,本手法は語彙なし復号化を行い,トレーニング語彙をはるかに超越した一般化を行う。
論文 参考訳(メタデータ) (2021-12-23T12:41:26Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。