論文の概要: MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling
- arxiv url: http://arxiv.org/abs/2506.10609v1
- Date: Thu, 12 Jun 2025 11:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.709043
- Title: MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling
- Title(参考訳): MSTAR:箱のないマルチクエリ・シーンテキスト検索
- Authors: Liang Yin, Xudong Xie, Zhang Li, Xiang Bai, Yuliang Liu,
- Abstract要約: Muti-query Scene Text Search with Attention recycling (MSTAR) は、シーンテキスト検索のためのボックスフリーアプローチである。
プログレッシブ・ビジョンの埋め込みを取り入れ、テキストのマルチグラデーション表現を動的にキャプチャする。
7つの公開データセットとMQTRデータセットにまたがって,我々の手法の優位性を実証した。
- 参考スコア(独自算出の注目度): 58.251621637466904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text retrieval has made significant progress with the assistance of accurate text localization. However, existing approaches typically require costly bounding box annotations for training. Besides, they mostly adopt a customized retrieval strategy but struggle to unify various types of queries to meet diverse retrieval needs. To address these issues, we introduce Muti-query Scene Text retrieval with Attention Recycling (MSTAR), a box-free approach for scene text retrieval. It incorporates progressive vision embedding to dynamically capture the multi-grained representation of texts and harmonizes free-style text queries with style-aware instructions. Additionally, a multi-instance matching module is integrated to enhance vision-language alignment. Furthermore, we build the Multi-Query Text Retrieval (MQTR) dataset, the first benchmark designed to evaluate the multi-query scene text retrieval capability of models, comprising four query types and 16k images. Extensive experiments demonstrate the superiority of our method across seven public datasets and the MQTR dataset. Notably, MSTAR marginally surpasses the previous state-of-the-art model by 6.4% in MAP on Total-Text while eliminating box annotation costs. Moreover, on the MQTR benchmark, MSTAR significantly outperforms the previous models by an average of 8.5%. The code and datasets are available at https://github.com/yingift/MSTAR.
- Abstract(参考訳): シーンテキスト検索は、正確なテキストローカライゼーションの支援により、大きな進歩を遂げた。
しかし、既存のアプローチではトレーニングに高価なバウンディングボックスアノテーションが必要です。
さらに、主にカスタマイズされた検索戦略を採用するが、多様な検索ニーズを満たすために、さまざまなタイプのクエリを統合するのに苦労する。
これらの問題に対処するために、シーンテキスト検索のためのボックスフリーアプローチであるMSTAR(Muti-query Scene Text Search with Attention recycling)を導入する。
プログレッシブな視覚埋め込みを組み込んで、テキストのマルチグラデーション表現を動的にキャプチャし、スタイル対応の命令でフリースタイルのテキストクエリを調和させる。
さらに、視覚言語アライメントを強化するために、マルチインスタンスマッチングモジュールが統合される。
さらに、4種類のクエリタイプと16k画像からなるモデルのマルチクエリシーンテキスト検索能力を評価するために設計された最初のベンチマークであるMQTRデータセットを構築した。
7つの公開データセットとMQTRデータセットにまたがって,我々の手法の優位性を実証した。
特に、MSTARはボックスアノテーションのコストを削減しつつ、Total-Text上でMAPの6.4%の最先端モデルをわずかに上回っている。
さらに、MQTRベンチマークでは、MSTARは以前のモデルよりも平均8.5%優れていた。
コードとデータセットはhttps://github.com/yingift/MSTARで公開されている。
関連論文リスト
- MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [55.486895951981566]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark [1.8448587047759064]
MIRACL-VISIONは多言語視覚文書評価評価ベンチマークである。
MIRACL-VISIONは18の言語をカバーし、MIRACLデータセットの拡張である。
我々は,多言語機能に対する最先端のVLMベースの埋め込みモデルのギャップを観察する。
論文 参考訳(メタデータ) (2025-05-16T19:22:19Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。