論文の概要: Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model
- arxiv url: http://arxiv.org/abs/2506.23822v1
- Date: Mon, 30 Jun 2025 13:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.066601
- Title: Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model
- Title(参考訳): 局所的な視覚言語モデルによるゼロショット学習の解釈
- Authors: Shiming Chen, Bowen Duan, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: 大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。
この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。
本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
- 参考スコア(独自算出の注目度): 56.573203512455706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models (VLMs), such as CLIP, have achieved remarkable success in zero-shot learning (ZSL) by leveraging large-scale visual-text pair datasets. However, these methods often lack interpretability, as they compute the similarity between an entire query image and the embedded category words, making it difficult to explain their predictions. One approach to address this issue is to develop interpretable models by integrating language, where classifiers are built using discrete attributes, similar to human perception. This introduces a new challenge: how to effectively align local visual features with corresponding attributes based on pre-trained VLMs. To tackle this, we propose LaZSL, a locally-aligned vision-language model for interpretable ZSL. LaZSL employs local visual-semantic alignment via optimal transport to perform interaction between visual regions and their associated attributes, facilitating effective alignment and providing interpretable similarity without the need for additional training. Extensive experiments demonstrate that our method offers several advantages, including enhanced interpretability, improved accuracy, and strong domain generalization. Codes available at: https://github.com/shiming-chen/LaZSL.
- Abstract(参考訳): CLIPのような大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において大きな成功を収めている。
しかし、これらの手法は、クエリ画像全体と組込み圏語との類似性を計算し、それらの予測を説明するのが難しくなるため、解釈可能性に欠けることが多い。
この問題に対処するための1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。
これは、学習済みのVLMに基づいて、ローカルな視覚的特徴と対応する属性を効果的に整列する方法という、新しい課題を導入する。
そこで本研究では,ZSLを解釈可能な視覚言語モデルであるLaZSLを提案する。
LaZSLは、視覚領域とその関連属性間の相互作用を実行するために、最適な輸送を通して局所的な視覚的セマンティックアライメントを使用し、効果的なアライメントを促進し、追加のトレーニングを必要とせずに解釈可能な類似性を提供する。
本手法は,解釈可能性の向上,精度の向上,ドメイン一般化の強化など,いくつかの利点があることを示す。
コードは、https://github.com/shiming-chen/LaZSL.comで入手できる。
関連論文リスト
- How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Scaling Language-Free Visual Representation Learning [62.31591054289958]
Visual Self-Supervised Learning (SSL) は現在、VQA (Visual Question Answering) のようなマルチモーダル環境で、コントラスト言語-画像事前学習 (CLIP) を過小評価している。
このマルチモーダルギャップは、視覚的なSSLとCLIPモデルが異なるデータでトレーニングされているにもかかわらず、言語監督によって導入されたセマンティクスに起因することが多い。
本稿では、同じMetaCLIPデータ上で、ビジュアルSSLとCLIPモデルの両方をトレーニングし、視覚エンコーダの多様なテストベッドとしてVQAを活用することにより、この問題を考察する。
論文 参考訳(メタデータ) (2025-04-01T17:59:15Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning [28.52949450389388]
Zero-shot Learning (ZSL) は、目に見えないクラスから見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。
我々はZSLを前進させるためにZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。
ZeroMambaは、SLP(Semantic-Aware Local Projection)、GRL(Global Representation Learning)、Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-08-27T08:39:47Z) - Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning [11.66422653137002]
本稿では,ゼロショット学習の課題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。
本手法では,視覚変換器に適応したアテンション機構を用いて,画像から小さなパッチに分割することで識別属性をキャプチャし,学習する。
論文 参考訳(メタデータ) (2021-07-30T19:08:44Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。