論文の概要: Delving into Multimodal Prompting for Fine-grained Visual Classification
- arxiv url: http://arxiv.org/abs/2309.08912v2
- Date: Wed, 13 Dec 2023 05:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:28:49.763499
- Title: Delving into Multimodal Prompting for Fine-grained Visual Classification
- Title(参考訳): 細粒度視覚分類のためのマルチモーダルプロンプトへの展開
- Authors: Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li
- Abstract要約: 細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
- 参考スコア(独自算出の注目度): 57.12570556836394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained visual classification (FGVC) involves categorizing fine
subdivisions within a broader category, which poses challenges due to subtle
inter-class discrepancies and large intra-class variations. However, prevailing
approaches primarily focus on uni-modal visual concepts. Recent advancements in
pre-trained vision-language models have demonstrated remarkable performance in
various high-level vision tasks, yet the applicability of such models to FGVC
tasks remains uncertain. In this paper, we aim to fully exploit the
capabilities of cross-modal description to tackle FGVC tasks and propose a
novel multimodal prompting solution, denoted as MP-FGVC, based on the
contrastive language-image pertaining (CLIP) model. Our MP-FGVC comprises a
multimodal prompts scheme and a multimodal adaptation scheme. The former
includes Subcategory-specific Vision Prompt (SsVP) and Discrepancy-aware Text
Prompt (DaTP), which explicitly highlights the subcategory-specific
discrepancies from the perspectives of both vision and language. The latter
aligns the vision and text prompting elements in a common semantic space,
facilitating cross-modal collaborative reasoning through a Vision-Language
Fusion Module (VLFM) for further improvement on FGVC. Moreover, we tailor a
two-stage optimization strategy for MP-FGVC to fully leverage the pre-trained
CLIP model and expedite efficient adaptation for FGVC. Extensive experiments
conducted on four FGVC datasets demonstrate the effectiveness of our MP-FGVC.
- Abstract(参考訳): 細粒度視覚分類(英語版)(fgvc)は、より広いカテゴリ内の細部を分類することであり、微妙なクラス間格差と大きなクラス内変異のために問題を引き起こす。
しかし、一般的なアプローチは主に一様視覚概念に焦点を当てている。
事前学習された視覚言語モデルの最近の進歩は、様々なハイレベルな視覚タスクにおいて顕著な性能を示しているが、そのようなモデルがFGVCタスクに適用可能であるかどうかは不明だ。
本稿では,FGVCタスクに取り組むためのクロスモーダル記述の能力をフル活用することを目的として,CLIPモデルに基づく,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
我々のMP-FGVCはマルチモーダルプロンプトスキームとマルチモーダル適応スキームからなる。
前者にはssvp(subcategory-specific vision prompt)とdatp(discrepancy-aware text prompt)が含まれており、視覚と言語の両方の観点から、サブカテゴリ固有の不一致を明確に強調している。
後者は、共通意味空間におけるビジョンとテキストの要素を協調させ、FGVCのさらなる改善のためにビジョン・ランゲージ・フュージョン・モジュール(VLFM)による相互協調推論を促進する。
さらに、MP-FGVCの2段階最適化戦略を調整し、事前学習したCLIPモデルを完全に活用し、FGVCの効率的な適応を高速化する。
4つのFGVCデータセットを用いた大規模な実験により,MP-FGVCの有効性が示された。
関連論文リスト
- Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks [0.0]
視覚駆動型プロンプト最適化(VDPO)は、高忠実度画像合成を導く視覚入力からテキストプロンプトを生成する。
VDPOは既存の手法を一貫して上回り、FID、LPIPS、BLEU/CIDErスコアを大幅に改善した。
人間の評価は、視覚的に魅力的でセマンティックにコヒーレントな出力を生成する上で、VDPOの実用的優位性をさらに検証する。
論文 参考訳(メタデータ) (2025-01-05T13:01:47Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization [30.92656780805478]
細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。
リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。
また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
論文 参考訳(メタデータ) (2024-03-15T13:40:44Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。