論文の概要: An analysis of vision-language models for fabric retrieval
- arxiv url: http://arxiv.org/abs/2507.04735v1
- Date: Mon, 07 Jul 2025 08:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.318613
- Title: An analysis of vision-language models for fabric retrieval
- Title(参考訳): ファブリック検索のための視覚言語モデルの解析
- Authors: Francesco Giuliari, Asif Khan Pattan, Mohamed Lamine Mekhalfi, Fabio Poiesi,
- Abstract要約: 情報検索やレコメンデーションシステムといったアプリケーションには,クロスモーダル検索が不可欠である。
本稿では,ファブリックサンプルのゼロショットテキスト・ツー・イメージ検索におけるビジョン言語モデルの利用について検討する。
- 参考スコア(独自算出の注目度): 4.311804611758908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective cross-modal retrieval is essential for applications like information retrieval and recommendation systems, particularly in specialized domains such as manufacturing, where product information often consists of visual samples paired with a textual description. This paper investigates the use of Vision Language Models(VLMs) for zero-shot text-to-image retrieval on fabric samples. We address the lack of publicly available datasets by introducing an automated annotation pipeline that uses Multimodal Large Language Models (MLLMs) to generate two types of textual descriptions: freeform natural language and structured attribute-based descriptions. We produce these descriptions to evaluate retrieval performance across three Vision-Language Models: CLIP, LAION-CLIP, and Meta's Perception Encoder. Our experiments demonstrate that structured, attribute-rich descriptions significantly enhance retrieval accuracy, particularly for visually complex fabric classes, with the Perception Encoder outperforming other models due to its robust feature alignment capabilities. However, zero-shot retrieval remains challenging in this fine-grained domain, underscoring the need for domain-adapted approaches. Our findings highlight the importance of combining technical textual descriptions with advanced VLMs to optimize cross-modal retrieval in industrial applications.
- Abstract(参考訳): 効果的なクロスモーダル検索は、情報検索やレコメンデーションシステムといったアプリケーション、特に製造などの専門分野において、製品情報はしばしばテキスト記述と組み合わせたビジュアルサンプルから構成される。
本稿では,ファブリックサンプルにおけるゼロショットテキスト画像検索における視覚言語モデル(VLM)の利用について検討する。
MLLM(Multimodal Large Language Models)を用いた自動アノテーションパイプラインを導入して,自由形式自然言語と構造化属性に基づく記述という2種類のテキスト記述を生成することで,公開データセットの欠如に対処する。
これらの記述は、CLIP、LAION-CLIP、Metaの知覚エンコーダの3つのビジョン言語モデルにおける検索性能を評価する。
提案実験により, 構造的, 属性に富んだ記述は, 特に視覚的に複雑なファブリッククラスにおいて, 検索精度を著しく向上させ, パーセプションエンコーダは, その頑健な特徴アライメント能力により, 他のモデルよりも優れていることを示した。
しかし、このきめ細かいドメインではゼロショット検索が依然として困難であり、ドメイン適応アプローチの必要性が強調されている。
本研究は,産業アプリケーションにおけるクロスモーダル検索を最適化するために,技術的テキスト記述と高度なVLMを組み合わせることの重要性を強調した。
関連論文リスト
- A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。