論文の概要: Diversity Covariance-Aware Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.01531v1
- Date: Mon, 03 Mar 2025 13:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:38.014117
- Title: Diversity Covariance-Aware Prompt Learning for Vision-Language Models
- Title(参考訳): 多様な共分散を考慮した視覚言語モデルのためのプロンプト学習
- Authors: Songlin Dong, Zhengdong Zhou, Chenhao Ding, Xinyuan Gao, Alex Kot, Yihong Gong,
- Abstract要約: 本稿では、データから分布情報を学習し、プロンプトモデルの少数ショット能力を向上する多様性共分散認識フレームワークを提案する。
視覚的特徴間の共分散関係をモデル化し,2つのモーダル間の類似度を測定するために,最適コサイン距離の代わりに異方性マハラノビス距離を用いる共分散認識手法を提案する。
そこで本研究では,多種多様なソフトプロンプトを学習し,カテゴリの異なる属性を抽出し,視覚的モダリティと独立にアライメントする多様性認識手法を提案する。
- 参考スコア(独自算出の注目度): 12.40822956896241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning can further enhance the performance of visual-language models across various downstream tasks (e.g., few-shot learning), enabling them to better adapt to specific applications and needs. In this paper, we present a Diversity Covariance-Aware framework that learns distributional information from the data to enhance the few-shot ability of the prompt model. First, we propose a covariance-aware method that models the covariance relationships between visual features and uses anisotropic Mahalanobis distance, instead of the suboptimal cosine distance, to measure the similarity between two modalities. We rigorously derive and prove the validity of this modeling process. Then, we propose the diversity-aware method, which learns multiple diverse soft prompts to capture different attributes of categories and aligns them independently with visual modalities. This method achieves multi-centered covariance modeling, leading to more diverse decision boundaries. Extensive experiments on 11 datasets in various tasks demonstrate the effectiveness of our method.
- Abstract(参考訳): プロンプトチューニングは、さまざまな下流タスク(例:数ショット学習)にわたる視覚言語モデルのパフォーマンスをさらに向上させ、特定のアプリケーションやニーズに適応できるようにします。
本稿では、データから分布情報を学習し、プロンプトモデルの少数ショット能力を向上する多様性共分散認識フレームワークを提案する。
まず、視覚的特徴間の共分散関係をモデル化し、2つのモーダル間の類似度を測定するために、最適なコサイン距離の代わりに、異方性マハラノビス距離を用いる共分散認識手法を提案する。
我々は、このモデリングプロセスの有効性を厳格に導き、証明する。
そこで本研究では,多種多様なソフトプロンプトを学習し,カテゴリの異なる属性を抽出し,視覚的モダリティと独立にアライメントする多様性認識手法を提案する。
この手法は多中心共分散モデリングを実現し、より多様な決定境界をもたらす。
各種タスクにおける11のデータセットに対する大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。
マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。
提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-03-10T08:58:05Z) - Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標を提案する。
我々は,NovellSumが精度よく多様性の変動を捉え,命令調整モデルの性能と0.97の相関性が得られることを示す。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting [9.116108409344177]
ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-01T11:00:38Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。