論文の概要: StacMR: Scene-Text Aware Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2012.04329v1
- Date: Tue, 8 Dec 2020 10:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:16:09.340592
- Title: StacMR: Scene-Text Aware Cross-Modal Retrieval
- Title(参考訳): StacMR:Scene-Text Aware Cross-Modal Retrieval
- Authors: Andr\'es Mafla and Rafael Sampaio de Rezende and Llu\'is G\'omez and
Diane Larlus and Dimosthenis Karatzas
- Abstract要約: クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 19.54677614738065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent models for cross-modal retrieval have benefited from an increasingly
rich understanding of visual scenes, afforded by scene graphs and object
interactions to mention a few. This has resulted in an improved matching
between the visual representation of an image and the textual representation of
its caption. Yet, current visual representations overlook a key aspect: the
text appearing in images, which may contain crucial information for retrieval.
In this paper, we first propose a new dataset that allows exploration of
cross-modal retrieval where images contain scene-text instances. Then, armed
with this dataset, we describe several approaches which leverage scene text,
including a better scene-text aware cross-modal retrieval method which uses
specialized representations for text from the captions and text from the visual
scene, and reconcile them in a common embedding space. Extensive experiments
confirm that cross-modal retrieval approaches benefit from scene text and
highlight interesting research questions worth exploring further. Dataset and
code are available at http://europe.naverlabs.com/stacmr
- Abstract(参考訳): クロスモーダル検索の最近のモデルは、シーングラフやオブジェクトの相互作用から得られる、視覚シーンの豊富な理解の恩恵を受けている。
これにより、画像の視覚的表現とキャプションのテキスト表現との間のマッチングが改善された。
しかし、現在の視覚的表現は重要な側面を見落としている。画像に現れるテキストは、検索に重要な情報を含んでいる可能性がある。
本稿では,まず,画像がシーンテキストインスタンスを含むクロスモーダル検索を可能にする新しいデータセットを提案する。
次に、このデータセットを用いて、視覚シーンからのキャプションとテキストからのテキストの特殊表現を用いた、より優れたシーンテキスト認識クロスモーダル検索手法を含む、シーンテキストを活用するいくつかのアプローチについて述べる。
広範な実験により、クロスモーダル検索のアプローチがシーンテキストの恩恵を受けることを確認し、さらに検討する価値のある興味深い研究課題を強調する。
データセットとコードはhttp://europe.naverlabs.com/stacmrで利用可能
関連論文リスト
- Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words [0.951828574518325]
文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval [66.66400551173619]
単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。
画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。
実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-31T03:40:21Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。
テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。
提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文 参考訳(メタデータ) (2020-07-16T20:32:54Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。