論文の概要: XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition
- arxiv url: http://arxiv.org/abs/2503.07075v1
- Date: Mon, 10 Mar 2025 08:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:58.971126
- Title: XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition
- Title(参考訳): XR-VLM:多部プロンプトを用いた相互関係モデリングと微粒化認識のための視覚的特徴
- Authors: Chuanming Wang, Henming Mao, Huanhuan Zhang, Huiyuan Fu, Huadong Ma,
- Abstract要約: XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。
マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。
提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 20.989787824067143
- License:
- Abstract: Vision-Language Models (VLMs) have demonstrated impressive performance on various visual tasks, yet they still require adaptation on downstream tasks to achieve optimal performance. Recently, various adaptation technologies have been proposed, but we observe they often underperform in fine-grained visual recognition, which requires models to capture subtle yet discriminative features to distinguish similar sub-categories. Current adaptation methods typically rely on an alignment-based prediction framework, \ie the visual feature is compared with each class prompt for similarity calculation as the final prediction, which lacks class interaction during the forward pass. Besides, learning single uni-modal feature further restricts the model's expressive capacity. Therefore, we propose a novel mechanism, XR-VLM, to discover subtle differences by modeling cross-relationships, which specifically excels in scenarios involving multiple features. Our method introduces a unified multi-part visual feature extraction module designed to seamlessly integrate with the diverse backbones inherent in VLMs. Additionally, we develop a multi-part prompt learning module to capture multi-perspective descriptions of sub-categories. To further enhance discriminative capability, we propose a cross relationship modeling pattern that combines visual feature with all class prompt features, enabling a deeper exploration of the relationships between these two modalities. Extensive experiments have been conducted on various fine-grained datasets, and the results demonstrate that our method achieves significant improvements compared to current state-of-the-art approaches. Code will be released.
- Abstract(参考訳): VLM(Vision-Language Models)は様々な視覚的タスクにおいて印象的なパフォーマンスを示してきたが、最適なパフォーマンスを達成するには下流タスクに適応する必要がある。
近年, 様々な適応技術が提案されているが, 細かな視覚認識では性能が劣ることが多く, 類似のサブカテゴリを識別するためには, 微妙ながら識別的な特徴を捉える必要がある。
現在の適応法は通常、アライメントベースの予測フレームワークに依存し、視覚的特徴を各クラスプロンプトと比較して、最終予測と類似性を計算する。
さらに、単一のユニモーダル機能を学ぶことで、モデルの表現能力はさらに制限される。
そこで本研究では,複数の特徴を含むシナリオに特有な相互関係をモデル化することにより,微妙な相違点を検出する機構であるXR-VLMを提案する。
本手法では,VLMに固有の多様なバックボーンをシームレスに統合する多部視覚特徴抽出モジュールを提案する。
さらに,サブカテゴリのマルチパースペクティブ記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。
さらに識別能力を高めるために,視覚特徴とクラスプロンプト特徴を結合した相互関係モデリングパターンを提案する。
各種きめ細かなデータセットに対して大規模な実験を行い,本手法が現在の最先端手法と比較して顕著な改善を達成できることを実証した。
コードはリリースされる。
関連論文リスト
- Balanced Multi-view Clustering [56.17836963920012]
マルチビュークラスタリング(MvC)は、さまざまなビューからの情報を統合して、基盤となるデータ構造をキャプチャするモデルの能力を高めることを目的としている。
MvCで広く使われているジョイントトレーニングパラダイムは、多視点情報を十分に活用していない可能性がある。
本稿では,ビュー固有のコントラスト正規化(VCR)を導入し,各ビューの最適化を最適化する新しいマルチビュークラスタリング(BMvC)手法を提案する。
論文 参考訳(メタデータ) (2025-01-05T14:42:47Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Shifting Perspective to See Difference: A Novel Multi-View Method for
Skeleton based Action Recognition [22.004971546763162]
骨格に基づく人間の行動認識は、その複雑なダイナミクスのために長年にわたる課題である。
本稿では,動的ビュー特徴の集合からアクションを認識する,概念的にシンプルで効果的なマルチビュー戦略を提案する。
私たちのモジュールは、既存のアクション分類モデルとシームレスに動作します。
論文 参考訳(メタデータ) (2022-09-07T08:20:37Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。