論文の概要: Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions
- arxiv url: http://arxiv.org/abs/2502.08438v1
- Date: Wed, 12 Feb 2025 14:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:51:12.313074
- Title: Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions
- Title(参考訳): 複合的Sketch+Textクエリによる名前と複雑な相互作用を持つオブジェクトの検索
- Authors: Prajwal Gatti, Kshitij Parikh, Dhriti Prasanna Paul, Manish Gupta, Anand Mishra,
- Abstract要約: 語彙が限られている非ネイティブ話者は、それを視覚化できるにもかかわらず、特定のオブジェクトを名付けるのに苦労することが多い。
そこで本研究では,手描きスケッチを用いて自然シーン画像中の関連オブジェクトをローカライズする,事前学習型マルチモーダルトランスフォーマーベースラインSTNET(Sketch+Text Network)を提案する。
提案手法は,テキストのみの,スケッチのみの,複合的なクエリモダリティに対する,最先端の検索手法よりも優れている。
- 参考スコア(独自算出の注目度): 6.8273484064357515
- License:
- Abstract: Non-native speakers with limited vocabulary often struggle to name specific objects despite being able to visualize them, e.g., people outside Australia searching for numbats. Further, users may want to search for such elusive objects with difficult-to-sketch interactions, e.g., numbat digging in the ground. In such common but complex situations, users desire a search interface that accepts composite multimodal queries comprising hand-drawn sketches of difficult-to-name but easy-to-draw objects and text describing difficult-to-sketch but easy-to-verbalize object attributes or interaction with the scene. This novel problem statement distinctly differs from the previously well-researched TBIR (text-based image retrieval) and SBIR (sketch-based image retrieval) problems. To study this under-explored task, we curate a dataset, CSTBIR (Composite Sketch+Text Based Image Retrieval), consisting of approx. 2M queries and 108K natural scene images. Further, as a solution to this problem, we propose a pretrained multimodal transformer-based baseline, STNET (Sketch+Text Network), that uses a hand-drawn sketch to localize relevant objects in the natural scene image, and encodes the text and image to perform image retrieval. In addition to contrastive learning, we propose multiple training objectives that improve the performance of our model. Extensive experiments show that our proposed method outperforms several state-of-the-art retrieval methods for text-only, sketch-only, and composite query modalities. We make the dataset and code available at our project website.
- Abstract(参考訳): 限定的な語彙を持つ非ネイティブ話者は、特定のオブジェクトを視覚化できるにもかかわらず、しばしば特定のオブジェクトに名前を付けるのに苦労する。
さらに、ユーザは、例えば、地面を掘るナンバトなど、難解な相互作用を持つ、そのような解答的オブジェクトを検索したいかもしれない。
このような一般的だが複雑な状況下では、ユーザは、難易度・難易度・難易度・難易度・難易度・難易度を記述した手書きのスケッチを含む複合マルチモーダルクエリを受け入れる検索インタフェースを欲しがる。
この新たな問題文は、以前によく研究されたTBIR(テキストベース画像検索)とSBIR(スケッチベース画像検索)とを明確に異なる。
この未探索課題を研究するために、近似からなるCSTBIR(Composite Sketch+Text Based Image Retrieval)というデータセットをキュレートする。
2Mクエリと108Kの自然シーンイメージ。
さらに,本問題の解決法として,手描きスケッチを用いて自然シーン画像中の関連オブジェクトをローカライズし,テキストと画像をエンコードして画像検索を行う,事前訓練されたマルチモーダルトランスフォーマーベースラインSTNET(Sketch+Text Network)を提案する。
対照的な学習に加えて,モデルの性能向上を目的とした複数の学習目標を提案する。
実験の結果,提案手法はテキストのみ,スケッチのみ,複合的な問合せモダリティに対して,最先端の検索手法よりも優れていることがわかった。
データセットとコードはプロジェクトのWebサイトで公開しています。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch [63.12810494378133]
テキスト記述とスケッチを入力として,画像検索のためのエンドツーエンドのトレーニング可能なモデルを提案する。
テキストに加え、入力スケッチ(下図)を使用することで、従来のテキストベースの画像検索と比較して、検索リコールが大幅に増加することを実証的に実証した。
論文 参考訳(メタデータ) (2022-08-05T18:43:37Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z) - SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。
そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。
我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文 参考訳(メタデータ) (2020-09-03T06:55:23Z) - MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding [6.4901484665257545]
本稿では,視覚的およびテキスト的データの様々なコンポーネントを,データの重要な部分に参加することによってキャプチャする,新しいマルチヘッド自己注意ネットワークを提案する。
提案手法は,MS-COCOおよびFlicker30Kデータセット上の画像テキスト検索タスクにおける最新の結果を実現する。
論文 参考訳(メタデータ) (2020-01-11T05:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。