論文の概要: Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2603.06281v1
- Date: Fri, 06 Mar 2026 13:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.805297
- Title: Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning
- Title(参考訳): ゼロショット学習のための属性分布モデリングと意味的視覚的アライメント
- Authors: Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia,
- Abstract要約: ジェネレーティブゼロショット学習(ZSL)は、目に見えないクラスの特徴を合成し、セマンティックな条件を利用して、目に見えないクラスから知識を伝達する。
1) クラスレベルの属性は、大きなクラス内変動のため、インスタンス固有の視覚的外観をキャプチャできないため、クラスインスタンス間のギャップが生じる。
本稿では属性分布を共同でモデル化し,意味・視覚的アライメントを行う属性分布モデリングとセマンティック・ビジュアルアライメント(ADiVA)アプローチを提案する。
- 参考スコア(独自算出の注目度): 32.153364858061614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative zero-shot learning (ZSL) synthesizes features for unseen classes, leveraging semantic conditions to transfer knowledge from seen classes. However, it also introduces two intrinsic challenges: (1) class-level attributes fails to capture instance-specific visual appearances due to substantial intra-class variability, thus causing the class-instance gap; (2) the substantial mismatch between semantic and visual feature distributions, manifested in inter-class correlations, gives rise to the semantic-visual domain gap. To address these challenges, we propose an Attribute Distribution Modeling and Semantic-Visual Alignment (ADiVA) approach, jointly modeling attribute distributions and performing explicit semantic-visual alignment. Specifically, our ADiVA consists of two modules: an Attribute Distribution Modeling (ADM) module that learns a transferable attribute distribution for each class and samples instance-level attributes for unseen classes, and a Visual-Guided Alignment (VGA) module that refines semantic representations to better reflect visual structures. Experiments on three widely used benchmark datasets demonstrate that ADiVA significantly outperforms state-of-the-art methods (e.g., achieving gains of 4.7% and 6.1% on AWA2 and SUN, respectively). Moreover, our approach can serve as a plugin to enhance existing generative ZSL methods.
- Abstract(参考訳): ジェネレーティブゼロショット学習(ZSL)は、目に見えないクラスの特徴を合成し、セマンティックな条件を利用して、目に見えないクラスから知識を伝達する。
しかし,(1)クラスレベルの属性は,クラス内変動によるインスタンス固有の視覚的外観のキャプチャに失敗し,クラス間ギャップを生じさせる。(2)クラス間相関で現れる意味的特徴分布と視覚的特徴分布のかなりのミスマッチは,意味的・視覚的領域ギャップを引き起こす。
これらの課題に対処するため、属性分布を共同でモデル化し、明示的な意味・視覚的アライメントを行うAttribute Distribution Modeling and Semantic-Visual Alignment (ADiVA)アプローチを提案する。
具体的には、AdiVAは2つのモジュールで構成されています。ADM(Atribute Distribution Modeling)モジュールは、クラスごとに転送可能な属性分布を学習し、インスタンスレベルの属性をサンプルにします。
広く使用されている3つのベンチマークデータセットの実験では、ADiVAは最先端の手法(例えば、AWA2とSUNでそれぞれ4.7%と6.1%のゲインを達成している)を著しく上回っている。
さらに,本手法は既存のZSL手法を改良するためのプラグインとして機能する。
関連論文リスト
- Distributed Zero-Shot Learning for Visual Recognition [54.776277273875195]
分散ゼロショット学習(DistZSL)フレームワークは、分散化されたデータをフル活用して、目に見えないクラスの効果的なモデルを学ぶことができる。
本稿では,DistZSLの効果的な学習を実現するために,ノード間属性正規化器とグローバル属性対視覚コンセンサスという2つの重要なコンポーネントを紹介する。
論文 参考訳(メタデータ) (2025-11-11T12:29:58Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Alignment-Uniformity aware Representation Learning for Zero-shot Video
Classification [3.6954802719347413]
本稿では,目に見えるクラスと目に見えないクラスの両方の表現に対して,アライメントと均一性を保ったエンドツーエンドフレームワークを提案する。
実験の結果,UCF101では28.1%,HMDB51では27.0%,SOTAでは28.1%が有意に向上した。
論文 参考訳(メタデータ) (2022-03-29T09:21:22Z) - Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features
with Attribute Augmentation [21.72622601533585]
多様な特徴を合成してゼロショット学習(ZSL)を促進する新しいフレームワークを提案する。
本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。
提案したモデルを4つのベンチマークデータセット上で評価し,現状に対する大幅な性能改善を観察した。
論文 参考訳(メタデータ) (2021-12-23T14:32:51Z) - Attribute-Modulated Generative Meta Learning for Zero-Shot
Classification [52.64680991682722]
ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。
本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。
実験により,AMAZはZSLで3.8%,ZSLで5.1%改善し,ZSL設定を一般化した。
論文 参考訳(メタデータ) (2021-04-22T04:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。