論文の概要: SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts
- arxiv url: http://arxiv.org/abs/2602.16917v1
- Date: Wed, 18 Feb 2026 22:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.423657
- Title: SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts
- Title(参考訳): SemCovNet: 表現不足の視覚概念に対する公平で意味のある包絡認識学習を目指して
- Authors: Sakib Ahammed, Xia Cui, Xinqi Fan, Wenqi Lu, Moi Hoon Yap,
- Abstract要約: 既存のデータセットはセマンティックカバー不均衡(SCI)を示す
SCIは意味レベルで発生し、モデルがどのように学習し、稀だが意味のある意味論を推論するかに影響を与える。
本稿では,SCIの修正を明示的に学習する新しいモデルであるSemantic Coverage-Aware Network (SemCovNet)を提案する。
- 参考スコア(独自算出の注目度): 11.181779608395184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision models increasingly rely on rich semantic representations that extend beyond class labels to include descriptive concepts and contextual attributes. However, existing datasets exhibit Semantic Coverage Imbalance (SCI), a previously overlooked bias arising from the long-tailed semantic representations. Unlike class imbalance, SCI occurs at the semantic level, affecting how models learn and reason about rare yet meaningful semantics. To mitigate SCI, we propose Semantic Coverage-Aware Network (SemCovNet), a novel model that explicitly learns to correct semantic coverage disparities. SemCovNet integrates a Semantic Descriptor Map (SDM) for learning semantic representations, a Descriptor Attention Modulation (DAM) module that dynamically weights visual and concept features, and a Descriptor-Visual Alignment (DVA) loss that aligns visual features with descriptor semantics. We quantify semantic fairness using a Coverage Disparity Index (CDI), which measures the alignment between coverage and error. Extensive experiments across multiple datasets demonstrate that SemCovNet enhances model reliability and substantially reduces CDI, achieving fairer and more equitable performance. This work establishes SCI as a measurable and correctable bias, providing a foundation for advancing semantic fairness and interpretable vision learning.
- Abstract(参考訳): 現代のビジョンモデルは、記述的な概念や文脈的属性を含むように、クラスラベルを超えて拡張されたリッチなセマンティック表現にますます依存している。
しかし、既存のデータセットは、長い尾のセマンティック表現から生じる見過ごされたバイアスであるセマンティックカバレッジ不均衡(SCI)を示す。
クラス不均衡とは異なり、SCIはセマンティックレベルで発生し、モデルがどのように学習し、稀だが意味のあるセマンティックスについて推論するかに影響を与える。
SCI を緩和するために,セマンティックカバレッジ・アウェアネットワーク (Semantic Coverage-Aware Network, SemCovNet) を提案する。
SemCovNetは意味表現を学習するためのセマンティック・ディクリプタマップ(SDM)、視覚的特徴と概念的特徴を動的に重み付けするディスクリプタ・アテンション・モデレーション(DAM)モジュール、視覚的特徴と記述的意味論を整列するディスクリプタ・ビジュアル・アライメント(DVA)損失を統合する。
CDI(Coverage Disparity Index)を用いて意味フェアネスを定量化し、カバレッジとエラーのアライメントを測定する。
複数のデータセットにわたる大規模な実験により、SemCovNetはモデルの信頼性を高め、CDIを大幅に削減し、より公平で公平なパフォーマンスを実現している。
この研究は、SCIを測定可能で修正可能なバイアスとして確立し、意味的公正性と解釈可能な視覚学習を促進する基盤を提供する。
関連論文リスト
- Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Simple Semantic-Aided Few-Shot Learning [2.8686437689115354]
限られた量のデータ、すなわちFew-Shot Learningから学ぶことは、コンピュータビジョンの課題として際立っている。
セマンティック進化(Semantic Evolution)と呼ばれる,高品質なセマンティックスを生成する自動手法を設計する。
セマンティックアライメントネットワーク(Semantic Alignment Network)と呼ばれる単純な2層ネットワークを用いて,セマンティックや視覚的特徴を堅牢なクラスプロトタイプに変換する。
論文 参考訳(メタデータ) (2023-11-30T15:57:34Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Imitation Learning-based Implicit Semantic-aware Communication Networks:
Multi-layer Representation and Collaborative Reasoning [68.63380306259742]
有望な可能性にもかかわらず、セマンティック通信とセマンティック・アウェア・ネットワーキングはまだ初期段階にある。
本稿では,CDCとエッジサーバの複数層を連携させる,推論に基づく暗黙的セマンティック・アウェア通信ネットワークアーキテクチャを提案する。
暗黙的セマンティクスの階層構造と個人ユーザのパーソナライズされた推論嗜好を考慮に入れたセマンティクス情報の多層表現を提案する。
論文 参考訳(メタデータ) (2022-10-28T13:26:08Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。