Fugu-MT 論文翻訳(概要): Language-driven Fine-grained Retrieval

論文の概要: Language-driven Fine-grained Retrieval

arxiv url: http://arxiv.org/abs/2512.06255v1
Date: Sat, 06 Dec 2025 02:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.267416
Title: Language-driven Fine-grained Retrieval
Title（参考訳）: 言語によるきめ細かい検索
Authors: Shijie Wang, Xin Yu, Yadan Luo, Zijian Wang, Pengfei Zhang, Zi Huang,
Abstract要約: LaFGは、Fine-Grained Retrievalのための言語駆動フレームワークである。クラス名を大きな言語モデルと視覚言語モデルを使用して属性レベルの監視に変換する。グローバルプロンプトテンプレートは、カテゴリ固有の言語プロトタイプに集約されたカテゴリ関連属性を選択する。
参考スコア（独自算出の注目度）: 56.619978313798875
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing fine-grained image retrieval (FGIR) methods learn discriminative embeddings by adopting semantically sparse one-hot labels derived from category names as supervision. While effective on seen classes, such supervision overlooks the rich semantics encoded in category names, hindering the modeling of comparability among cross-category details and, in turn, limiting generalization to unseen categories. To tackle this, we introduce LaFG, a Language-driven framework for Fine-Grained Retrieval that converts class names into attribute-level supervision using large language models (LLMs) and vision-language models (VLMs). Treating each name as a semantic anchor, LaFG prompts an LLM to generate detailed, attribute-oriented descriptions. To mitigate attribute omission in these descriptions, it leverages a frozen VLM to project them into a vision-aligned space, clustering them into a dataset-wide attribute vocabulary while harvesting complementary attributes from related categories. Leveraging this vocabulary, a global prompt template selects category-relevant attributes, which are aggregated into category-specific linguistic prototypes. These prototypes supervise the retrieval model to steer
Abstract（参考訳）: 既存の細粒度画像検索(FGIR)手法は、カテゴリ名から派生した意味的にスパースな1ホットラベルを監督として採用することにより、識別的埋め込みを学習する。目に見えるクラスでは有効であるが、そのような監督はカテゴリ名にエンコードされたリッチな意味論を見落とし、カテゴリ間詳細間の互換性のモデリングを阻害し、その結果、一般化を目に見えないカテゴリに制限する。これを解決するために、LFGは、クラス名を大きな言語モデル(LLM)と視覚言語モデル(VLM)を用いて属性レベルの監視に変換する、ファイングラインド検索のための言語駆動フレームワークである。それぞれの名前をセマンティックアンカーとして扱うことで、LaFGはLLMに詳細な属性指向の記述を生成するよう促す。これらの記述における属性の欠落を軽減するために、凍結したVLMを利用して、それらを視覚的に整合した空間に投影し、関連するカテゴリから補完的な属性を抽出しながら、データセット全体の属性語彙にクラスタリングする。この語彙を活用することで、グローバルプロンプトテンプレートはカテゴリ固有の言語プロトタイプに集約されたカテゴリ関連属性を選択する。これらのプロトタイプは、ステアへの検索モデルを監督する

関連論文リスト

From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T15:17:08Z)
Tree of Attributes Prompt Learning for Vision-Language Models [27.64685205305313]
視覚とテキストのプロンプトトークンを用いて階層構造を学習するためのTAP(Tree of Attributes Prompt Learning)を提案する。非構造化記述の集合で単にカテゴリ名を拡大する既存の方法とは異なり、本手法は基本的に構造化知識グラフを蒸留する。提案手法は,ゼロショットのベース・ツー・ノーベル一般化,クロスデータセット転送,および11の多様なデータセットの少数ショット分類において,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-10-15T02:37:39Z)
Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。 VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文参考訳（メタデータ） (2024-04-16T19:27:21Z)
AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文参考訳（メタデータ） (2023-08-31T19:34:09Z)
Waffling around for Performance: Visual Classification with Random Words and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。 LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文参考訳（メタデータ） (2023-06-12T17:59:48Z)
Exploiting Category Names for Few-Shot Classification with Vision-Language Models [78.51975804319149]
大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2022-11-29T21:08:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。