論文の概要: Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity
- arxiv url: http://arxiv.org/abs/2510.13364v1
- Date: Wed, 15 Oct 2025 09:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.60958
- Title: Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity
- Title(参考訳): ラベルとしての言語:データスカシティによる日常姿勢のゼロショットマルチモーダル分類
- Authors: MingZe Tang, Jubal Chandy Jacob,
- Abstract要約: 近年のビジョン・ランゲージ・モデル(VLM)は、画像とテキストを共有空間にアライメントすることで、ゼロショットの分類を可能にする。
本研究は, 座位, 立位, 歩行・走走の0ショット分類において, 即時特異性がどの程度影響するかを検討する。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent Vision-Language Models (VLMs) enable zero-shot classification by aligning images and text in a shared space, a promising approach for data-scarce conditions. However, the influence of prompt design on recognizing visually similar categories, such as human postures, is not well understood. This study investigates how prompt specificity affects the zero-shot classification of sitting, standing, and walking/running on a small, 285-image COCO-derived dataset. A suite of modern VLMs, including OpenCLIP, MetaCLIP 2, and SigLip, were evaluated using a three-tiered prompt design that systematically increases linguistic detail. Our findings reveal a compelling, counter-intuitive trend: for the highest-performing models (MetaCLIP 2 and OpenCLIP), the simplest, most basic prompts consistently achieve the best results. Adding descriptive detail significantly degrades performance for instance, MetaCLIP 2's multi-class accuracy drops from 68.8\% to 55.1\% a phenomenon we term "prompt overfitting". Conversely, the lower-performing SigLip model shows improved classification on ambiguous classes when given more descriptive, body-cue-based prompts.
- Abstract(参考訳): 近年のビジョンランゲージモデル(VLM)では,共有空間における画像とテキストの整列によるゼロショット分類が実現されている。
しかし、人間の姿勢など視覚的に類似したカテゴリーの認識に対するプロンプトデザインの影響はよく理解されていない。
本研究では,285イメージのCOCO由来の小さなデータセット上での座位,立位,歩行・走行の0ショット分類が,迅速な特異性がどのように影響するかを検討する。
OpenCLIP、MetaCLIP 2、SigLipを含む最新のVLMのスイートを、3階層のプロンプト設計を用いて評価し、言語的詳細を体系的に増加させた。
以上の結果から,最も単純で,最も基本的なプロンプトであるMetaCLIP 2とOpenCLIPでは,最高の結果が常に得られているという,説得力のある非直感的傾向が明らかとなった。
例えばMetaCLIP 2のマルチクラスの精度は68.8\%から55.1\%に低下する。
逆に、低パフォーマンスのSigLipモデルでは、より記述的でボディーキューに基づくプロンプトが与えられると、あいまいなクラスの分類が改善されている。
関連論文リスト
- SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。
近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。
分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:11:53Z) - Hierarchical Representation Matching for CLIP-based Class-Incremental Learning [80.2317078787969]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、進化するデータストリームに継続的に適応可能なモデルを提供することを目的とする。
事前訓練された視覚言語モデル(例えばCLIP)の最近の進歩は、このタスクの強力な基盤を提供する。
本稿では,CLIPベースのCILのためのHiErarchical Representation MAtchiNg(HERMAN)を紹介する。
論文 参考訳(メタデータ) (2025-09-26T17:59:51Z) - Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography [0.764671395172401]
本研究では,マルチモーダル大言語モデル (LLMs) とビジョン言語モデル (VLMs) のクリスチャン・イコノグラフィーのシングルラベル分類における機能評価を行った。
論文 参考訳(メタデータ) (2025-09-23T09:23:31Z) - CLIP-IN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Making Better Mistakes in CLIP-Based Zero-Shot Classification with Hierarchy-Aware Language Prompts [2.967024581564439]
私たちはCLIPベースのゼロショット分類において、より良い誤りを犯すことを紹介します。
提案手法は, 5つのデータセットの総合的な比較において, 関連手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-04T03:54:50Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science [27.727207443432278]
本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。
その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
論文 参考訳(メタデータ) (2023-05-23T17:48:21Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。