論文の概要: Dynamic Visual-semantic Alignment for Zero-shot Learning with Ambiguous Labels
- arxiv url: http://arxiv.org/abs/2604.17710v1
- Date: Mon, 20 Apr 2026 01:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.652693
- Title: Dynamic Visual-semantic Alignment for Zero-shot Learning with Ambiguous Labels
- Title(参考訳): あいまいなラベルを用いたゼロショット学習のための動的ビジュアルセマンティックアライメント
- Authors: Jiangnan Li, Linqing Huang, Xiaowen Yan, Min Gan, Wenpeng Lu, Jinfu Fan,
- Abstract要約: Zero-shot Learning (ZSL)は、視覚的なインスタンスなしで見えないクラスを認識することを目的としている。
あいまいなラベルから学習するための頑健なZSLフレームワークであるDynamic Visual-Semantic Alignment (DVSA)を提案する。
- 参考スコア(独自算出の注目度): 29.164514810375266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims to recognize unseen classes without visual instances. However, existing methods usually assume clean labels, overlooking real-world label noise and ambiguity, which degrades performance. To bridge this gap, we propose the Dynamic Visual-semantic Alignment (DVSA), a robust ZSL framework for learning from ambiguous labels. DVSA uses a bidirectional visual-semantic alignment module with attention to mutually calibrate visual features and attribute prototypes, and a contrastive optimization grounded in Mutual Information (MI) at the attribute level to strengthen discriminative, semantically consistent attributes. In addition, a dynamic label disambiguation mechanism iteratively corrects noisy supervision while preserving semantic consistency, narrowing the instance-label gap, and improving generalization. Extensive experiments on standard benchmarks verify that DVSA achieves stronger performance under ambiguous supervision.
- Abstract(参考訳): Zero-shot Learning (ZSL)は、視覚的なインスタンスなしで見えないクラスを認識することを目的としている。
しかし、既存の手法は通常クリーンなラベルを仮定し、実世界のラベルノイズやあいまいさを見落とし、性能を低下させる。
このギャップを埋めるために、曖昧なラベルから学習するための堅牢なZSLフレームワークであるDynamic Visual-Semantic Alignment (DVSA)を提案する。
DVSAは、視覚的特徴と属性のプロトタイプを相互に校正するために、双方向の視覚的セマンティックアライメントモジュールを使用し、属性レベルでの相互情報(MI)に基づくコントラスト最適化により、識別的、意味的に一貫した属性を強化する。
さらに、動的ラベル曖昧化機構は、意味的一貫性を維持しつつノイズの監督を反復的に補正し、インスタンスとラベルのギャップを狭め、一般化を改善する。
標準ベンチマークに関する大規模な実験は、DVSAが曖昧な監督の下でより強力な性能を達成することを検証している。
関連論文リスト
- CLIP-driven Zero-shot Learning with Ambiguous Labels [18.698063548107672]
ラベルのあいまいさを扱うために,CLIP-PZSL(CLIP-PZSL)フレームワークを提案する。
トレーニングが進むにつれて、地平線ラベルは徐々に識別され、改良されたラベルとラベルの埋め込みは、インスタンスとラベルの特徴のセマンティックアライメントを改善するのに役立ちます。
論文 参考訳(メタデータ) (2026-03-05T11:06:30Z) - AlignCAT: Visual-Linguistic Alignment of Category and Attribute for Weakly Supervised Visual Grounding [56.972490764212175]
弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。
既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。
本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
論文 参考訳(メタデータ) (2025-08-05T08:16:35Z) - SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning [38.507994878183474]
ゼロショット学習のためのセマンティック・コンテクスト化された視覚パッチ(SVIP)を紹介する。
本稿では,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。
SVIPは、より解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-13T10:59:51Z) - A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition [6.468625143772815]
ラベル認識型トークンレベルのコントラスト学習フレームワークを提案する。
提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。
コンテキストネイティブとコンテキストラベルの対比学習目標を同時に最適化する。
論文 参考訳(メタデータ) (2024-04-26T06:19:21Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Scribble Hides Class: Promoting Scribble-Based Weakly-Supervised
Semantic Segmentation with Its Class Label [16.745019028033518]
画像レベルのクラスから情報を得たスクリブルアノテーションと擬似ラベルと、監督のためのグローバルセマンティクスの両方を利用するクラス駆動型スクリブルプロモーションネットワークを提案する。
スクリブルアノテーションの異なる性質を持つScribbleSupデータセットの実験は、従来の手法よりも優れており、本手法の優位性と堅牢性を示している。
論文 参考訳(メタデータ) (2024-02-27T14:51:56Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。