論文の概要: Experimental Evaluation of Static Image Sub-Region-Based Search Models Using CLIP
- arxiv url: http://arxiv.org/abs/2506.06938v1
- Date: Sat, 07 Jun 2025 22:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.573801
- Title: Experimental Evaluation of Static Image Sub-Region-Based Search Models Using CLIP
- Title(参考訳): CLIPを用いた静的画像サブリージョン検索モデルの実験的検討
- Authors: Bastian Jäckl, Vojtěch Kloda, Daniel A. Keim, Jakub Lokoč,
- Abstract要約: マルチモーダルテキストイメージモデルは、広範な画像コレクションにおいて効果的なテキストベースのクエリを可能にした。
本研究では,不明瞭なテキストクエリを補完する位置ベースのプロンプトを追加することで,検索性能が向上するかどうかを検討する。
- 参考スコア(独自算出の注目度): 5.732912699831267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in multimodal text-image models have enabled effective text-based querying in extensive image collections. While these models show convincing performance for everyday life scenes, querying in highly homogeneous, specialized domains remains challenging. The primary problem is that users can often provide only vague textual descriptions as they lack expert knowledge to discriminate between homogenous entities. This work investigates whether adding location-based prompts to complement these vague text queries can enhance retrieval performance. Specifically, we collected a dataset of 741 human annotations, each containing short and long textual descriptions and bounding boxes indicating regions of interest in challenging underwater scenes. Using these annotations, we evaluate the performance of CLIP when queried on various static sub-regions of images compared to the full image. Our results show that both a simple 3-by-3 partitioning and a 5-grid overlap significantly improve retrieval effectiveness and remain robust to perturbations of the annotation box.
- Abstract(参考訳): マルチモーダルテキストイメージモデルの進歩により、広範な画像収集において効果的なテキストベースのクエリが可能になった。
これらのモデルは日常生活における説得力のあるパフォーマンスを示すが、高度に均質な専門領域でのクエリは依然として困難である。
第一の問題は、ユーザーがホモジェニックなエンティティを区別する専門知識が欠けているため、曖昧なテキスト記述しか提供できないことである。
本研究では,これらの曖昧なテキストクエリを補完する位置ベースのプロンプトを追加することで,検索性能が向上するかどうかを検討する。
具体的には、741人のアノテーションのデータセットを収集し、それぞれに短文と長文の記述と、挑戦的な水中シーンへの関心を示すバウンディングボックスを含む。
これらのアノテーションを用いて,画像の様々な静的部分領域を問合せするCLIPの性能を,全画像と比較して評価した。
以上の結果から, 単純な3-by-3分割と5-gridの重複は, 検索効率を著しく向上し, アノテーションボックスの摂動に頑健であることが示唆された。
関連論文リスト
- MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [55.486895951981566]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with
Partial Query [25.398090300086302]
本稿では,この問題に対処する対話型検索フレームワークPart2Wholeを提案する。
Interactive Retrieval Agentは、初期クエリを洗練するための最適なポリシーを構築するために訓練される。
テキスト画像データセット以外の人手による注釈データを必要としない弱教師付き強化学習法を提案する。
論文 参考訳(メタデータ) (2021-03-02T11:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。