論文の概要: Language-driven Fine-grained Retrieval
- arxiv url: http://arxiv.org/abs/2512.06255v1
- Date: Sat, 06 Dec 2025 02:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.267416
- Title: Language-driven Fine-grained Retrieval
- Title(参考訳): 言語によるきめ細かい検索
- Authors: Shijie Wang, Xin Yu, Yadan Luo, Zijian Wang, Pengfei Zhang, Zi Huang,
- Abstract要約: LaFGは、Fine-Grained Retrievalのための言語駆動フレームワークである。
クラス名を大きな言語モデルと視覚言語モデルを使用して属性レベルの監視に変換する。
グローバルプロンプトテンプレートは、カテゴリ固有の言語プロトタイプに集約されたカテゴリ関連属性を選択する。
- 参考スコア(独自算出の注目度): 56.619978313798875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing fine-grained image retrieval (FGIR) methods learn discriminative embeddings by adopting semantically sparse one-hot labels derived from category names as supervision. While effective on seen classes, such supervision overlooks the rich semantics encoded in category names, hindering the modeling of comparability among cross-category details and, in turn, limiting generalization to unseen categories. To tackle this, we introduce LaFG, a Language-driven framework for Fine-Grained Retrieval that converts class names into attribute-level supervision using large language models (LLMs) and vision-language models (VLMs). Treating each name as a semantic anchor, LaFG prompts an LLM to generate detailed, attribute-oriented descriptions. To mitigate attribute omission in these descriptions, it leverages a frozen VLM to project them into a vision-aligned space, clustering them into a dataset-wide attribute vocabulary while harvesting complementary attributes from related categories. Leveraging this vocabulary, a global prompt template selects category-relevant attributes, which are aggregated into category-specific linguistic prototypes. These prototypes supervise the retrieval model to steer
- Abstract(参考訳): 既存の細粒度画像検索(FGIR)手法は、カテゴリ名から派生した意味的にスパースな1ホットラベルを監督として採用することにより、識別的埋め込みを学習する。
目に見えるクラスでは有効であるが、そのような監督はカテゴリ名にエンコードされたリッチな意味論を見落とし、カテゴリ間詳細間の互換性のモデリングを阻害し、その結果、一般化を目に見えないカテゴリに制限する。
これを解決するために、LFGは、クラス名を大きな言語モデル(LLM)と視覚言語モデル(VLM)を用いて属性レベルの監視に変換する、ファイングラインド検索のための言語駆動フレームワークである。
それぞれの名前をセマンティックアンカーとして扱うことで、LaFGはLLMに詳細な属性指向の記述を生成するよう促す。
これらの記述における属性の欠落を軽減するために、凍結したVLMを利用して、それらを視覚的に整合した空間に投影し、関連するカテゴリから補完的な属性を抽出しながら、データセット全体の属性語彙にクラスタリングする。
この語彙を活用することで、グローバルプロンプトテンプレートはカテゴリ固有の言語プロトタイプに集約されたカテゴリ関連属性を選択する。
これらのプロトタイプは、ステアへの検索モデルを監督する
関連論文リスト
- MLLM-Driven Semantic Identifier Generation for Generative Cross-Modal Retrieval [7.524529523498721]
本稿では,MLLMに画像キャプチャーペアから構造化意味識別子を生成するための語彙効率のよい識別子生成フレームワークを提案する。
これらの識別子は、オブジェクトやアクションのような概念レベルのトークンで構成され、モデルの生成空間と自然に整合している。
また、Rationale-Guided Supervision Strategyを導入し、各識別子と並行して一文説明を作成するよう促す。
論文 参考訳(メタデータ) (2025-09-22T05:23:06Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。
現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。
この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:17:08Z) - Tree of Attributes Prompt Learning for Vision-Language Models [27.64685205305313]
視覚とテキストのプロンプトトークンを用いて階層構造を学習するためのTAP(Tree of Attributes Prompt Learning)を提案する。
非構造化記述の集合で単にカテゴリ名を拡大する既存の方法とは異なり、本手法は基本的に構造化知識グラフを蒸留する。
提案手法は,ゼロショットのベース・ツー・ノーベル一般化,クロスデータセット転送,および11の多様なデータセットの少数ショット分類において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-10-15T02:37:39Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Exploiting Category Names for Few-Shot Classification with
Vision-Language Models [78.51975804319149]
大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-29T21:08:46Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。