論文の概要: Beyond Accuracy: Metrics that Uncover What Makes a `Good' Visual Descriptor
- arxiv url: http://arxiv.org/abs/2507.03542v1
- Date: Fri, 04 Jul 2025 12:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.773667
- Title: Beyond Accuracy: Metrics that Uncover What Makes a `Good' Visual Descriptor
- Title(参考訳): 正確性を超えて: 'Good' ビジュアル記述子を作るメトリクス
- Authors: Ethan Lin, Linxi Zhao, Atharva Sehgal, Jennifer J. Sun,
- Abstract要約: 我々は,(1)表現能力,(2)VLM事前学習データとの関係の2つの重要な側面に沿って,記述子の品質を体系的に解析する。
表現アライメントと言語理解のアイデアに触発されて,2つのアライメントベースのメトリクスであるGlobal AlignmentとCLIP similarityを導入する。
- 参考スコア(独自算出の注目度): 4.76296755805531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based visual descriptors-ranging from simple class names to more descriptive phrases-are widely used in visual concept discovery and image classification with vision-language models (VLMs). Their effectiveness, however, depends on a complex interplay of factors, including semantic clarity, presence in the VLM's pre-training data, and how well the descriptors serve as a meaningful representation space. In this work, we systematically analyze descriptor quality along two key dimensions: (1) representational capacity, and (2) relationship with VLM pre-training data. We evaluate a spectrum of descriptor generation methods, from zero-shot LLM-generated prompts to iteratively refined descriptors. Motivated by ideas from representation alignment and language understanding, we introduce two alignment-based metrics-Global Alignment and CLIP Similarity-that move beyond accuracy. These metrics allow us to shed light on how different descriptor generation strategies interact with foundation model properties, offering insights into ways of studying descriptor effectiveness beyond accuracy evaluations.
- Abstract(参考訳): テキストベースの視覚記述子は、単純なクラス名からより記述的なフレーズまで、視覚概念の発見や視覚言語モデル(VLM)による画像分類に広く用いられている。
しかし、それらの効果は、意味的明快さ、VLMの事前学習データの存在、記述子がどのように意味のある表現空間として機能するかといった要素の複雑な相互作用に依存する。
本研究では,(1)表現能力,(2)VLM事前学習データとの関係の2つの重要な側面に沿って,記述子の品質を体系的に解析する。
我々は,ゼロショットLCM生成プロンプトから反復的に洗練されたディスクリプタまで,記述子生成手法のスペクトルを評価する。
表現アライメントと言語理解のアイデアに触発されて,2つのアライメントベースのメトリクスであるGlobal AlignmentとCLIP similarityを導入する。
これらの指標により、異なる記述子生成戦略が基礎モデル特性とどのように相互作用するかを明確化し、精度評価以上の記述子の有効性を研究する方法に関する洞察を提供することができる。
関連論文リスト
- Does VLM Classification Benefit from LLM Description Semantics? [26.743684911323857]
そこで本研究では,クラス名認識効果とは無関係に機能する識別記述を学習不要に選択する手法を提案する。
提案手法では,ローカルなCLIPラベル近傍のクラスを効果的に区別する記述を同定し,分類精度を7つのデータセットで向上する。
論文 参考訳(メタデータ) (2024-12-16T16:01:18Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。