論文の概要: One Last Attention for Your Vision-Language Model
- arxiv url: http://arxiv.org/abs/2507.15480v2
- Date: Mon, 28 Jul 2025 04:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.043429
- Title: One Last Attention for Your Vision-Language Model
- Title(参考訳): ビジョンランゲージモデルへの最後の注意
- Authors: Liang Chen, Ghazi Shazan Ahmad, Tianjun Yao, Lingqiao Liu, Zhiqiang Shen,
- Abstract要約: 微調整中に最終的な融合表現を明示的に活用するための textbfRational textbfAdaptaion (RAda) を提案する。
RAdaは、VLMの端に取り付けられた軽量の注意層から得られた学習マスクを用いて、有理行列の各要素の寄与を動的に校正する。
実験の結果、RADAは汎用的な微調整技術として機能し、最小限のコードでベースラインを改善し、ほとんどの設定で現行のアートと互換性のあるパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 42.872184600248914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained vision-language models (VLMs), such as CLIP, achieve remarkable zero-shot performance, yet their downstream potential hinges on effective fine-tuning. Most adaptation methods typically focus on refining representation from separate modalities (text or vision) but neglect the critical role of their fused representations in the decision-making process, \emph{\ie} rational matrix that drives the final prediction. To bridge the gap, we propose a simple yet effective \textbf{R}ational \textbf{Ada}ptaion ({RAda}) to explicitly exploit the final fused representation during fine-tuning. RAda employs a learned mask, obtained from a lightweight attention layer attached at the end of a VLM, to dynamically calibrate the contribution of each element in the rational matrix, enabling targeted adjustments to the final cross-modal interactions without incurring costly modifications to intermediate features. Experiments in different settings (i.e., updating, or freezing pretrained encoders in adaptation, and test-time training that can only access the unlabeled test data) show that RAda serves as a versatile fine-tuning technique, improving the baseline with minimal code and performing comparably against current arts in most settings. Code is available at \href{https://github.com/khufia/RAda/tree/main}{github.com/khufia/RAda}.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、優れたゼロショット性能を達成するが、下流の潜在能力は効果的な微調整に影響を及ぼす。
ほとんどの適応法は、通常、別個のモダリティ(テキストまたはビジョン)から表現を精製することに焦点を当てるが、最終的な予測を駆動する決定過程において、それらの融合表現の重要な役割を無視する。
このギャップを埋めるために、微調整中に最終的な融合表現を明示的に活用するために、単純で効果的な \textbf{R}ational \textbf{Ada}ptaion ({RAda})を提案する。
RAdaは、VLMの端に取り付けられた軽量の注意層から得られた学習マスクを用いて、有理行列における各要素の寄与を動的に校正し、中間的特徴にコストがかかることなく最終モーダル間相互作用の標的調整を可能にする。
異なる設定(例えば、事前訓練されたエンコーダを適応させたり、凍結させたり、ラベル付けされていないテストデータにしかアクセスできないテストタイムトレーニング)の実験では、RADAが汎用的な微調整技術として機能し、最小限のコードでベースラインを改善し、ほとんどの設定で現在の芸術と互換性のあるパフォーマンスを発揮する。
コードは \href{https://github.com/khufia/RAda/tree/main}{github.com/khufia/RAda} で公開されている。
関連論文リスト
- Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文 参考訳(メタデータ) (2025-04-17T07:46:19Z) - Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations [2.992602379681373]
マルチモーダル微調整により,OoDDの性能が向上することを示す。
本稿では,IDデータの画像とテキストの埋め込み距離を正規化することにより,モーダルアライメントを向上させる訓練目標を提案する。
論文 参考訳(メタデータ) (2025-03-24T16:00:21Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment [4.682326604942316]
我々は,様々な画像分類タスクにおいて高精度な視覚言語基礎モデルであるコントラスト言語-画像事前学習(CLIP)に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像モダリティを一致させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - ContrastMotion: Self-supervised Scene Motion Learning for Large-Scale
LiDAR Point Clouds [21.6511040107249]
BEV表現を用いたLiDARに基づく自律走行のための新しい自律走行推定器を提案する。
連続するフレームにおける柱間の特徴レベルの整合性によるシーンの動きを予測し,ダイナミックなシーンにおけるノイズポイントや視点変化点雲の影響を解消する。
論文 参考訳(メタデータ) (2023-04-25T05:46:24Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。