論文の概要: Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.09139v1
- Date: Wed, 14 May 2025 04:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.37746
- Title: Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models
- Title(参考訳): 一般プロンプトを超えて:視覚・言語モデルにおける対象の曖昧化のためのコントラストクラスアライメントスコアを用いた自動プロンプトリファインメント
- Authors: Lucas Choi, Ross Greer,
- Abstract要約: CCAS(Contrastive Class Alignment Score)と呼ばれる新しいメトリクスを用いた自動即時改善手法を提案する。
提案手法は,大規模言語モデルを用いて多様なプロンプト候補を生成し,文変換器からのプロンプト埋め込みを用いてCCASを用いてフィルタする。
本研究では,高精度の自動選択により,モデルトレーニングやラベル付きデータを必要とせずに,物体検出精度が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) offer flexible object detection through natural language prompts but suffer from performance variability depending on prompt phrasing. In this paper, we introduce a method for automated prompt refinement using a novel metric called the Contrastive Class Alignment Score (CCAS), which ranks prompts based on their semantic alignment with a target object class while penalizing similarity to confounding classes. Our method generates diverse prompt candidates via a large language model and filters them through CCAS, computed using prompt embeddings from a sentence transformer. We evaluate our approach on challenging object categories, demonstrating that our automatic selection of high-precision prompts improves object detection accuracy without the need for additional model training or labeled data. This scalable and model-agnostic pipeline offers a principled alternative to manual prompt engineering for VLM-based detection systems.
- Abstract(参考訳): 視覚言語モデル(VLM)は、自然言語のプロンプトを通じて柔軟なオブジェクト検出を提供するが、プロンプトのフレーズによっては性能の変動に悩まされる。
本稿では,コントラスト・クラスアライメント・スコア (CCAS) と呼ばれる新しい指標を用いた自動プロンプト・リファインメント手法を提案する。
提案手法は,大規模言語モデルを用いて多様なプロンプト候補を生成し,文変換器からのプロンプト埋め込みを用いてCCASを用いてフィルタする。
提案手法は,高精度の自動選択により,追加のモデルトレーニングやラベル付きデータを必要とせずに,物体検出精度が向上することを示す。
このスケーラブルでモデルに依存しないパイプラインは、VLMベースの検出システムの手動プロンプトエンジニアリングに代わる、原則的な代替手段を提供する。
関連論文リスト
- An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection [0.08974531206817744]
そこで本研究では,非技術ユーザを対象にした自然言語テキスト記述の改善手法を提案する。
複数の公開可能なオープン語彙オブジェクト検出モデルで性能を示すことで,フィードバック機構がもたらす改善を定量化する。
論文 参考訳(メタデータ) (2025-03-21T16:34:04Z) - QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries [2.306164598536725]
本稿では,学習済みのVLMを自然言語クエリに迅速に適応する新しいフレームワークを提案する。
VLMの機能をクエリに関連するセマンティッククラスと整合させるために、前回のデプロイメントで収集された不正なデータを使用します。
また、実際のデータを適応するために使用する場合、クエリと無関係なオブジェクトをどのように扱うべきかについても検討する。
論文 参考訳(メタデータ) (2025-02-26T01:07:28Z) - Enhancing LLM-Based Text Classification in Political Science: Automatic Prompt Optimization and Dynamic Exemplar Selection for Few-Shot Learning [1.6967824074619953]
大型言語モデル (LLMs) は、政治学におけるテキスト分類をかなり約束する。
本フレームワークは,自動プロンプト最適化,動的指数選択,コンセンサス機構を通じてLLM性能を向上させる。
オープンソースのPythonパッケージ(PoliPrompt)がGitHubで公開されている。
論文 参考訳(メタデータ) (2024-09-02T21:05:31Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot
Classification [15.575483080819563]
本稿では,自動マルチラベルプロンプト(AMuLaP)を提案する。
提案手法は,1対多のラベルマッピングと統計に基づくアルゴリズムを用いて,プロンプトテンプレートを付与したラベルマッピングを選択する。
実験の結果,AMuLaPは人的労力や外部リソースを使わずにGLUEベンチマーク上での競合性能を実証した。
論文 参考訳(メタデータ) (2022-04-13T11:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。