論文の概要: ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2203.16778v1
- Date: Thu, 31 Mar 2022 03:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:03:56.771805
- Title: ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval
- Title(参考訳): ViSTA: クロスモーダル検索のための視覚とシーンテキストアグリゲーション
- Authors: Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie
Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang
- Abstract要約: 単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。
画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。
実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 66.66400551173619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual appearance is considered to be the most important cue to understand
images for cross-modal retrieval, while sometimes the scene text appearing in
images can provide valuable information to understand the visual semantics.
Most of existing cross-modal retrieval approaches ignore the usage of scene
text information and directly adding this information may lead to performance
degradation in scene text free scenarios. To address this issue, we propose a
full transformer architecture to unify these cross-modal retrieval scenarios in
a single $\textbf{Vi}$sion and $\textbf{S}$cene $\textbf{T}$ext
$\textbf{A}$ggregation framework (ViSTA). Specifically, ViSTA utilizes
transformer blocks to directly encode image patches and fuse scene text
embedding to learn an aggregated visual representation for cross-modal
retrieval. To tackle the modality missing problem of scene text, we propose a
novel fusion token based transformer aggregation approach to exchange the
necessary scene text information only through the fusion token and concentrate
on the most important features in each modality. To further strengthen the
visual modality, we develop dual contrastive learning losses to embed both
image-text pairs and fusion-text pairs into a common cross-modal space.
Compared to existing methods, ViSTA enables to aggregate relevant scene text
semantics with visual appearance, and hence improve results under both scene
text free and scene text aware scenarios. Experimental results show that ViSTA
outperforms other methods by at least $\bf{8.4}\%$ at Recall@1 for scene text
aware retrieval task. Compared with state-of-the-art scene text free retrieval
methods, ViSTA can achieve better accuracy on Flicker30K and MSCOCO while
running at least three times faster during the inference stage, which validates
the effectiveness of the proposed framework.
- Abstract(参考訳): 視覚的な外観は、クロスモーダル検索のための画像を理解する上で最も重要な手がかりであると考えられているが、画像に現れるシーンテキストは、視覚の意味を理解する上で貴重な情報を提供することがある。
既存のクロスモーダル検索手法のほとんどはシーンテキスト情報の利用を無視しており、直接追加することでシーンテキストフリーシナリオのパフォーマンスが低下する可能性がある。
この問題に対処するために、これらのクロスモーダル検索シナリオを単一の$\textbf{Vi}$sionと$\textbf{S}$cene $\textbf{T}$ext $\textbf{A}$ggregation framework (ViSTA)で統一するフルトランスフォーマーアーキテクチャを提案する。
具体的には、トランスフォーマーブロックを使用して、画像パッチを直接エンコードし、シーンテキストを埋め込むことで、クロスモーダル検索のための集約された視覚表現を学習する。
シーンテキストのモダリティを欠く問題に対処するため,新たな融合トークンベースのトランスフォーマー集約手法を提案し,融合トークンを介して必要なシーンテキスト情報を交換し,各モードにおける最も重要な特徴に集中する。
視覚モダリティをさらに強化するため、画像-テキストペアと融合-テキストペアの両方を共通のクロスモーダル空間に埋め込むために、2つのコントラスト学習損失を開発する。
既存の手法と比較して、ViSTAは関連するシーンテキストセマンティクスを視覚的外観で集約し、シーンテキストフリーとシーンテキストアウェアメントの両方のシナリオで結果を改善することができる。
実験の結果、vistaはシーンテキスト認識検索タスクのrecall@1で少なくとも$\bf{8.4}\%$で他のメソッドよりも優れていた。
最先端のシーンテキスト検索手法と比較して,提案手法の有効性を検証した推論段階では,少なくとも3倍高速に動作しながら,Flicker30K と MSCOCO の精度が向上する。
関連論文リスト
- Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation [1.9085074258303771]
本研究では,ソース言語からターゲット言語へのシーンテキストの視覚的翻訳作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では、シーンテキスト認識、機械翻訳、シーンテキスト合成のための最先端モジュールを組み合わせた視覚翻訳のためのケースケードフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T05:23:25Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。