論文の概要: Decouple before Align: Visual Disentanglement Enhances Prompt Tuning
- arxiv url: http://arxiv.org/abs/2508.00395v1
- Date: Fri, 01 Aug 2025 07:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.778894
- Title: Decouple before Align: Visual Disentanglement Enhances Prompt Tuning
- Title(参考訳): 視界のゆがみによってプロンプトチューニングが促進される
- Authors: Fei Zhang, Tianfei Zhou, Jiangchao Yao, Ya Zhang, Ivor W. Tsang, Yanfeng Wang,
- Abstract要約: プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。
本稿では,従来見過ごされていた情報非対称性の問題について述べる。
本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
- 参考スコア(独自算出の注目度): 85.91474962071452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompt tuning (PT), as an emerging resource-efficient fine-tuning paradigm, has showcased remarkable effectiveness in improving the task-specific transferability of vision-language models. This paper delves into a previously overlooked information asymmetry issue in PT, where the visual modality mostly conveys more context than the object-oriented textual modality. Correspondingly, coarsely aligning these two modalities could result in the biased attention, driving the model to merely focus on the context area. To address this, we propose DAPT, an effective PT framework based on an intuitive decouple-before-align concept. First, we propose to explicitly decouple the visual modality into the foreground and background representation via exploiting coarse-and-fine visual segmenting cues, and then both of these decoupled patterns are aligned with the original foreground texts and the hand-crafted background classes, thereby symmetrically strengthening the modal alignment. To further enhance the visual concentration, we propose a visual pull-push regularization tailored for the foreground-background patterns, directing the original visual representation towards unbiased attention on the region-of-interest object. We demonstrate the power of architecture-free DAPT through few-shot learning, base-to-novel generalization, and data-efficient learning, all of which yield superior performance across prevailing benchmarks. Our code will be released at https://github.com/Ferenas/DAPT.
- Abstract(参考訳): 資源効率の高い微調整パラダイムであるプロンプトチューニング(PT)は、視覚言語モデルのタスク固有転送性を改善する際、顕著な効果を示した。
本論文は,視覚的モダリティがオブジェクト指向のテキストのモダリティよりも多くの文脈を伝達するPTにおいて,これまで見過ごされていた情報非対称性の問題について考察する。
それに対応して、これらの2つのモダリティを粗く整列すると、バイアスのある注意が生まれ、モデルが単にコンテキスト領域に集中するように促される。
そこで本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
まず、粗く細い視覚的セグメンテーションの手がかりを利用して、前景と背景表現に視覚的モダリティを明示的に分離し、その後、これらの分離されたパターンが元の前景のテキストと手作りの背景クラスと整列し、対称的にそのアライメントを強化することを提案する。
視覚的集中度をさらに高めるために,前景背景パターンに適した視覚的プルプッシュ正規化を提案する。
アーキテクチャフリーなDAPTのパワーを,数ショットの学習,ベース・ツー・ノーベルの一般化,データ効率の学習を通じて実証する。
私たちのコードはhttps://github.com/Ferenas/DAPT.comでリリースされます。
関連論文リスト
- Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation [2.104191333263349]
現在の視覚的接地法は、視覚的特徴と言語的特徴を得るために、訓練済みの視覚的および言語的バックボーンを独立して利用する。
この問題は、現在の視覚的接地法で使用されるシングルモーダルトレーニングバックボーン間のドメインギャップから生じる。
本稿では,視覚的グラウンド化作業の指針となるマルチモーダル事前学習モデルを蒸留する,視覚的グラウンド化のためのエンパワーディング事前学習モデルを提案する。
論文 参考訳(メタデータ) (2023-12-29T15:32:11Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。