Fugu-MT 論文翻訳(概要): Delving into Multimodal Prompting for Fine-grained Visual Classification

論文の概要: Delving into Multimodal Prompting for Fine-grained Visual Classification

arxiv url: http://arxiv.org/abs/2309.08912v2
Date: Wed, 13 Dec 2023 05:24:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 20:28:49.763499
Title: Delving into Multimodal Prompting for Fine-grained Visual Classification
Title（参考訳）: 細粒度視覚分類のためのマルチモーダルプロンプトへの展開
Authors: Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li
Abstract要約: 細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
参考スコア（独自算出の注目度）: 57.12570556836394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-grained visual classification (FGVC) involves categorizing fine subdivisions within a broader category, which poses challenges due to subtle inter-class discrepancies and large intra-class variations. However, prevailing approaches primarily focus on uni-modal visual concepts. Recent advancements in pre-trained vision-language models have demonstrated remarkable performance in various high-level vision tasks, yet the applicability of such models to FGVC tasks remains uncertain. In this paper, we aim to fully exploit the capabilities of cross-modal description to tackle FGVC tasks and propose a novel multimodal prompting solution, denoted as MP-FGVC, based on the contrastive language-image pertaining (CLIP) model. Our MP-FGVC comprises a multimodal prompts scheme and a multimodal adaptation scheme. The former includes Subcategory-specific Vision Prompt (SsVP) and Discrepancy-aware Text Prompt (DaTP), which explicitly highlights the subcategory-specific discrepancies from the perspectives of both vision and language. The latter aligns the vision and text prompting elements in a common semantic space, facilitating cross-modal collaborative reasoning through a Vision-Language Fusion Module (VLFM) for further improvement on FGVC. Moreover, we tailor a two-stage optimization strategy for MP-FGVC to fully leverage the pre-trained CLIP model and expedite efficient adaptation for FGVC. Extensive experiments conducted on four FGVC datasets demonstrate the effectiveness of our MP-FGVC.
Abstract（参考訳）: 細粒度視覚分類(英語版)(fgvc)は、より広いカテゴリ内の細部を分類することであり、微妙なクラス間格差と大きなクラス内変異のために問題を引き起こす。しかし、一般的なアプローチは主に一様視覚概念に焦点を当てている。事前学習された視覚言語モデルの最近の進歩は、様々なハイレベルな視覚タスクにおいて顕著な性能を示しているが、そのようなモデルがFGVCタスクに適用可能であるかどうかは不明だ。本稿では,FGVCタスクに取り組むためのクロスモーダル記述の能力をフル活用することを目的として,CLIPモデルに基づく,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。我々のMP-FGVCはマルチモーダルプロンプトスキームとマルチモーダル適応スキームからなる。前者にはssvp(subcategory-specific vision prompt)とdatp(discrepancy-aware text prompt)が含まれており、視覚と言語の両方の観点から、サブカテゴリ固有の不一致を明確に強調している。後者は、共通意味空間におけるビジョンとテキストの要素を協調させ、FGVCのさらなる改善のためにビジョン・ランゲージ・フュージョン・モジュール(VLFM)による相互協調推論を促進する。さらに、MP-FGVCの2段階最適化戦略を調整し、事前学習したCLIPモデルを完全に活用し、FGVCの効率的な適応を高速化する。 4つのFGVCデータセットを用いた大規模な実験により,MP-FGVCの有効性が示された。

関連論文リスト

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval [36.96113192872342]
FGVC (Few-shot fine-grained visual classification) は、限られたデータを活用して、下位の異なるカテゴリを識別できるようにすることを目的としている。最近の研究は、主に訓練済みの視覚言語モデルを微調整し、性能向上を実現したが、過度に適合し、一般化が弱かった。少数ショットFGVCをマルチモーダル検索として再構成するユニバーサルトレーニングフリーフレームワークUniFGVCを紹介する。
論文参考訳（メタデータ） (2025-08-06T07:02:39Z)
Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。 AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。 MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文参考訳（メタデータ） (2025-07-11T08:45:27Z)
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文参考訳（メタデータ） (2025-05-21T12:18:15Z)
Vision-Driven Prompt Optimization for Large Language Models in Multimodal Generative Tasks [0.0]
視覚駆動型プロンプト最適化(VDPO)は、高忠実度画像合成を導く視覚入力からテキストプロンプトを生成する。 VDPOは既存の手法を一貫して上回り、FID、LPIPS、BLEU/CIDErスコアを大幅に改善した。人間の評価は、視覚的に魅力的でセマンティックにコヒーレントな出力を生成する上で、VDPOの実用的優位性をさらに検証する。
論文参考訳（メタデータ） (2025-01-05T13:01:47Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文参考訳（メタデータ） (2024-07-25T06:10:33Z)
Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization [30.92656780805478]
細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
論文参考訳（メタデータ） (2024-03-15T13:40:44Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文参考訳（メタデータ） (2023-04-29T08:59:12Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Interpretable Attention Guided Network for Fine-grained Visual Classification [36.657203916383594]
細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。
論文参考訳（メタデータ） (2021-03-08T12:27:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。