論文の概要: H3Former: Hypergraph-based Semantic-Aware Aggregation via Hyperbolic Hierarchical Contrastive Loss for Fine-Grained Visual Classification
- arxiv url: http://arxiv.org/abs/2511.10260v1
- Date: Fri, 14 Nov 2025 01:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.778838
- Title: H3Former: Hypergraph-based Semantic-Aware Aggregation via Hyperbolic Hierarchical Contrastive Loss for Fine-Grained Visual Classification
- Title(参考訳): H3Former: 微細な視覚分類のための双曲的階層的コントラスト損失によるハイパーグラフに基づくセマンティック・アウェア・アグリゲーション
- Authors: Yongji Zhang, Siqi Li, Kuiyang Huang, Yue Gao, Yu Jiang,
- Abstract要約: H3Formerは、きめ細かい視覚分類のための新しいトークン・ツー・リージョンフレームワークである。
SAAMは、トークン間で重み付けされたハイパーグラフを動的に構築するために、マルチスケールのコンテキストキューを利用する。
HHCLは非ユークリッド埋め込み空間において階層的意味制約を強制する。
- 参考スコア(独自算出の注目度): 17.431440244641585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-Grained Visual Classification (FGVC) remains a challenging task due to subtle inter-class differences and large intra-class variations. Existing approaches typically rely on feature-selection mechanisms or region-proposal strategies to localize discriminative regions for semantic analysis. However, these methods often fail to capture discriminative cues comprehensively while introducing substantial category-agnostic redundancy. To address these limitations, we propose H3Former, a novel token-to-region framework that leverages high-order semantic relations to aggregate local fine-grained representations with structured region-level modeling. Specifically, we propose the Semantic-Aware Aggregation Module (SAAM), which exploits multi-scale contextual cues to dynamically construct a weighted hypergraph among tokens. By applying hypergraph convolution, SAAM captures high-order semantic dependencies and progressively aggregates token features into compact region-level representations. Furthermore, we introduce the Hyperbolic Hierarchical Contrastive Loss (HHCL), which enforces hierarchical semantic constraints in a non-Euclidean embedding space. The HHCL enhances inter-class separability and intra-class consistency while preserving the intrinsic hierarchical relationships among fine-grained categories. Comprehensive experiments conducted on four standard FGVC benchmarks validate the superiority of our H3Former framework.
- Abstract(参考訳): Fine-Grained Visual Classification (FGVC) は、微妙なクラス間差と大きなクラス内変化のため、依然として難しい課題である。
既存のアプローチは、典型的には、意味分析のために識別領域をローカライズするための特徴選択機構や領域固有戦略に依存している。
しかし、これらの手法は、カテゴリーに依存しない実質的な冗長性を導入しながら、識別的手がかりを包括的に捉えることに失敗することが多い。
これらの制約に対処するために,H3Formerを提案する。H3Formerは,高次意味関係を利用して局所的なきめ細かい表現を構造化された領域レベルのモデリングで集約する新しいトークン・ツー・リージョン・フレームワークである。
具体的には,トークン間の重み付きハイパーグラフを動的に構築するために,マルチスケールコンテキストキューを利用するセマンティック・アウェア・アグリゲーション・モジュール(SAAM)を提案する。
ハイパーグラフの畳み込みを適用することで、SAAMは高階のセマンティック依存関係をキャプチャし、トークンの特徴をコンパクトな領域レベルの表現に徐々に集約する。
さらに,非ユークリッド埋め込み空間における階層的意味制約を強制するHHCL(Hyperbolic Hierarchical Contrastive Loss)を導入する。
HHCLはクラス間分離性とクラス内整合性を高め、細粒度カテゴリ間の固有の階層関係を保存する。
4つの標準FGVCベンチマークで実施された総合的な実験は、我々のH3Formerフレームワークの優位性を検証する。
関連論文リスト
- EnGraf-Net: Multiple Granularity Branch Network with Fine-Coarse Graft Grained for Classification Task [0.8299692647308321]
きめ細かい分類モデルは、非常に類似したクラスを区別するために必要な関連する詳細に焦点を当てるように設計されている。
自動収穫法を含む部分的アプローチは、局所的特徴の不完全な表現に悩まされる。
本研究では,エングラフネット(EnGraf-Net)と呼ばれるエンドツーエンドのディープニューラルネットワークモデルにおいて,階層構造(分類)として構築されたセマンティックアソシエーションを教師付き信号として活用する。
論文 参考訳(メタデータ) (2025-09-25T12:11:42Z) - Contrastive Prompt Clustering for Weakly Supervised Semantic Segmentation [41.065931555596975]
本稿では,新しいWSSSフレームワークであるContrastive Prompt Clustering (CPC)を提案する。
CPCはLarge Language Models (LLM) を利用して、固有のクラス間の関係を符号化するカテゴリクラスタを導出する。
PASCAL VOC 2012 と MS 2014 の実験では、CPC がWSSS の既存の最先端手法を上回ることが示されている。
論文 参考訳(メタデータ) (2025-08-23T12:49:08Z) - HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment [16.926158907882012]
本稿では,変圧器を用いたセグメンテーションネットワークにおいて,ドメイン不変のテキスト埋め込みをオブジェクトクエリとして統合する統合型ビジョン・ランゲージフレームワークを提案する。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを橋渡しし,より詳細な一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-16T19:05:33Z) - Split Matching for Inductive Zero-shot Semantic Segmentation [56.47556212515178]
Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-08T07:56:30Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Data-free Knowledge Distillation for Fine-grained Visual Categorization [9.969720644789781]
本稿では,DFKDを細粒度視覚分類(FGVC)タスクに拡張するDFKD-FGVCという手法を提案する。
本研究では,広く使用されている3つのFGVCベンチマーク(Aircraft,Cars196,CUB200)に対するアプローチを評価し,その性能を実証した。
論文 参考訳(メタデータ) (2024-04-18T09:44:56Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。