論文の概要: From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection
- arxiv url: http://arxiv.org/abs/2505.13233v1
- Date: Mon, 19 May 2025 15:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.69096
- Title: From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection
- Title(参考訳): 局所的詳細からグローバルな文脈へ:注意に基づく選択による視覚言語モデルの改善
- Authors: Lincan Cai, Jingxuan Kang, Shuang Li, Wenxuan Ma, Binhui Xie, Zhida Qin, Jian Liang,
- Abstract要約: textbfABSは、配布外一般化とゼロショット分類タスクで最先端のパフォーマンスを達成する。
textbfABSはトレーニング不要で、数ショットとテストタイムのアダプティブメソッドにさえ競合する。
- 参考スコア(独自算出の注目度): 38.98491521357191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained vision-language models (VLMs), e.g., CLIP, demonstrate impressive zero-shot capabilities on downstream tasks. Prior research highlights the crucial role of visual augmentation techniques, like random cropping, in alignment with fine-grained class descriptions generated by large language models (LLMs), significantly enhancing zero-shot performance by incorporating multi-view information. However, the inherent randomness of these augmentations can inevitably introduce background artifacts and cause models to overly focus on local details, compromising global semantic understanding. To address these issues, we propose an \textbf{A}ttention-\textbf{B}ased \textbf{S}election (\textbf{ABS}) method from local details to global context, which applies attention-guided cropping in both raw images and feature space, supplement global semantic information through strategic feature selection. Additionally, we introduce a soft matching technique to effectively filter LLM descriptions for better alignment. \textbf{ABS} achieves state-of-the-art performance on out-of-distribution generalization and zero-shot classification tasks. Notably, \textbf{ABS} is training-free and even rivals few-shot and test-time adaptation methods. Our code is available at \href{https://github.com/BIT-DA/ABS}{\textcolor{darkgreen}{https://github.com/BIT-DA/ABS}}.
- Abstract(参考訳): 事前訓練された視覚言語モデル(VLM)、例えばCLIPは、下流タスクで印象的なゼロショット機能を示している。
従来の研究では、大規模言語モデル(LLM)が生成する微細なクラス記述に合わせて、ランダムトリミングのような視覚増強技術が重要な役割を担っており、マルチビュー情報を組み込むことで、ゼロショットのパフォーマンスを大幅に向上している。
しかし、これらの拡張の固有のランダム性は、必然的に背景のアーティファクトを導入し、モデルが局所的な詳細に集中し、グローバルな意味理解を妥協させる。
これらの問題に対処するために,局所的な詳細からグローバルな文脈への<textbf{A}ttention-\textbf{B}ased \textbf{S}election(\textbf{ABS})手法を提案する。
さらに,LLM記述を効果的にフィルタリングしてアライメントを改善するソフトマッチング手法を提案する。
textbf{ABS} は、分布外一般化とゼロショット分類タスクにおける最先端のパフォーマンスを達成する。
特に、‘textbf{ABS} はトレーニングフリーで、数ショットやテストタイムのアダプティブメソッドにさえ競合する。
私たちのコードは \href{https://github.com/BIT-DA/ABS}{\textcolor{darkgreen}{https://github.com/BIT-DA/ABS}} で利用可能です。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Semantically Grounded Visual Embeddings for Zero-Shot Learning [17.86691047421871]
本稿では,2ストリームネットワークを用いた共同画像とテキストモデルをプロキシタスクで計算することにより,意味的基盤とリッチな視覚情報を学習することを提案する。
ゼロショット学習のためのジョイント埋め込みと呼ばれる手法を,いくつかのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2022-01-03T10:43:15Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Simple and effective localized attribute representations for zero-shot
learning [48.053204004771665]
Zero-shot Learning (ZSL) は、目に見えないクラスとイメージを区別することを目的としている。
本稿では,意味/属性空間における局所化表現を提案する。
提案手法は,ゼロショット学習のための新しいベースラインとして利用することができる。
論文 参考訳(メタデータ) (2020-06-10T16:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。