論文の概要: MSCI: Addressing CLIP's Inherent Limitations for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2505.10289v1
- Date: Thu, 15 May 2025 13:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.334941
- Title: MSCI: Addressing CLIP's Inherent Limitations for Compositional Zero-Shot Learning
- Title(参考訳): MSCI:コンポジションゼロショット学習におけるCLIPの遺伝的限界への対処
- Authors: Yue Wang, Shuai Xu, Xuelin Zhu, Yicong Li,
- Abstract要約: 構成ゼロショット学習は、既知の組み合わせを活用して、目に見えない状態オブジェクトの組み合わせを認識することを目的としている。
既存の研究は基本的にCLIPのクロスモーダルアライメント機能に依存している。
本稿では,CLIPのビジュアルエンコーダの中間層情報を効果的に探索し,活用する多段階クロスモーダルインタラクションモデルを提案する。
- 参考スコア(独自算出の注目度): 8.021031339658492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize unseen state-object combinations by leveraging known combinations. Existing studies basically rely on the cross-modal alignment capabilities of CLIP but tend to overlook its limitations in capturing fine-grained local features, which arise from its architectural and training paradigm. To address this issue, we propose a Multi-Stage Cross-modal Interaction (MSCI) model that effectively explores and utilizes intermediate-layer information from CLIP's visual encoder. Specifically, we design two self-adaptive aggregators to extract local information from low-level visual features and integrate global information from high-level visual features, respectively. These key information are progressively incorporated into textual representations through a stage-by-stage interaction mechanism, significantly enhancing the model's perception capability for fine-grained local visual information. Additionally, MSCI dynamically adjusts the attention weights between global and local visual information based on different combinations, as well as different elements within the same combination, allowing it to flexibly adapt to diverse scenarios. Experiments on three widely used datasets fully validate the effectiveness and superiority of the proposed model. Data and code are available at https://github.com/ltpwy/MSCI.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、既知の組み合わせを活用して、目に見えない状態オブジェクトの組み合わせを認識することを目的としている。
既存の研究は基本的にCLIPのクロスモーダルアライメント機能に依存しているが、アーキテクチャやトレーニングのパラダイムから生じる、きめ細かい局所的な特徴を捉えるという制限を無視する傾向にある。
この問題に対処するために,CLIPのビジュアルエンコーダから中間層情報を効果的に探索し,活用するマルチステージ・クロスモーダルインタラクション(MSCI)モデルを提案する。
具体的には、低レベル視覚特徴から局所情報を抽出し、高レベル視覚特徴からグローバル情報を統合する2つの自己適応アグリゲータを設計する。
これらの重要な情報は段階間相互作用機構を通じてテキスト表現に段階的に組み込まれ、局所的な詳細な視覚情報に対するモデルの知覚能力を大幅に向上させる。
さらに、MSCIは異なる組み合わせに基づいてグローバルとローカルの視覚情報間の注意重みを動的に調整し、同じ組み合わせ内の異なる要素を柔軟に多様なシナリオに適応させる。
提案モデルの有効性と優越性を検証した3つの広く利用されているデータセットの実験を行った。
データとコードはhttps://github.com/ltpwy/MSCIで入手できる。
関連論文リスト
- FedRSClip: Federated Learning for Remote Sensing Scene Classification Using Vision-Language Models [23.830133838392964]
本稿では,VLM,特にCLIPに基づくリモートセンシング画像分類のための最初のフェデレーション学習フレームワークであるFedRSCLIPを提案する。
FedRSCLIPは、Prompt Learningを導入することで、フェデレーション環境におけるデータ不均一性と大規模モデル伝送の課題に対処する。
提案モデルの有効性を検証するため,既存の3つのリモートセンシング画像分類データセットに基づいてFed-RSICデータセットを構築した。
論文 参考訳(メタデータ) (2025-01-05T07:10:27Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。