論文の概要: Fine-Grained Zero-Shot Learning with Attribute-Centric Representations
- arxiv url: http://arxiv.org/abs/2512.12219v1
- Date: Sat, 13 Dec 2025 07:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.169899
- Title: Fine-Grained Zero-Shot Learning with Attribute-Centric Representations
- Title(参考訳): 属性中心表現を用いたファイングラインドゼロショット学習
- Authors: Zhi Chen, Jingcai Guo, Taotao Cai, Yuxiang Cai,
- Abstract要約: 本稿では属性絡みの問題を解決するために属性中心表現(ACR)を学習するゼロショット学習フレームワークを提案する。
ACRは、Mixture of Patch Experts (MoPE) とMixture of Attribute Experts (MoAE) という2つのMixture of Exertsコンポーネントで実現されている。
我々のACRは、ベンチマークデータセットCUB、AwA2、SUNに対して、一貫した最先端の結果を達成します。
- 参考スコア(独自算出の注目度): 24.673597914215886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing unseen fine-grained categories demands a model that can distinguish subtle visual differences. This is typically achieved by transferring visual-attribute relationships from seen classes to unseen classes. The core challenge is attribute entanglement, where conventional models collapse distinct attributes like color, shape, and texture into a single visual embedding. This causes interference that masks these critical distinctions. The post-hoc solutions of previous work are insufficient, as they operate on representations that are already mixed. We propose a zero-shot learning framework that learns AttributeCentric Representations (ACR) to tackle this problem by imposing attribute disentanglement during representation learning. ACR is achieved with two mixture-of-experts components, including Mixture of Patch Experts (MoPE) and Mixture of Attribute Experts (MoAE). First, MoPE is inserted into the transformer using a dual-level routing mechanism to conditionally dispatch image patches to specialized experts. This ensures coherent attribute families are processed by dedicated experts. Finally, the MoAE head projects these expert-refined features into sparse, partaware attribute maps for robust zero-shot classification. On zero-shot learning benchmark datasets CUB, AwA2, and SUN, our ACR achieves consistent state-of-the-art results.
- Abstract(参考訳): 目に見えない細かいカテゴリーを認識するには、微妙な視覚的差異を区別できるモデルが必要である。
これは典型的には、視覚的属性関係を見えないクラスから見えないクラスに転送することで達成される。
主な課題は属性の絡み合いであり、従来のモデルでは色、形状、テクスチャといった異なる属性を単一の視覚的な埋め込みに分解する。
これはこれらの重要な区別を隠蔽する干渉を引き起こす。
過去の作業のポストホックなソリューションは、既に混在している表現を扱うため不十分である。
本稿では,ACR(AtributeCentric Representations)を学習するゼロショット学習フレームワークを提案する。
ACRは、Mixture of Patch Experts (MoPE) とMixture of Attribute Experts (MoAE) という2つのMixture of Exertsコンポーネントで実現されている。
まず、MoPEをデュアルレベルルーティング機構を使ってトランスフォーマーに挿入し、特殊な専門家に画像パッチを条件付きでディスパッチする。
これにより、コヒーレント属性ファミリーは専用の専門家によって処理される。
最後に、MOAEのヘッドは、これらの専門家が修正した特徴を、堅牢なゼロショット分類のためのスパースなパータウェア属性マップに投影する。
ゼロショット学習ベンチマークのデータセットであるCUB,AwA2,SUNでは,ACRが一貫した結果が得られる。
関連論文リスト
- CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning [48.46511584490582]
ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。
分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げる。
これらの課題を克服するために、双方向のクロスモーダルZSLアプローチCRESTを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:19:39Z) - Attribute-Aware Representation Rectification for Generalized Zero-Shot
Learning [19.65026043141699]
一般化ゼロショット学習(GZSL)は、一連の非バイアスの視覚-セマンティックマッピングを設計することによって、顕著な性能を得た。
本稿では,GZSLに対して,$mathbf(AR)2$という簡易かつ効果的な属性認識表現フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:32Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。