論文の概要: Disentangling Content from Style to Overcome Shortcut Learning: A Hybrid Generative-Discriminative Learning Framework
- arxiv url: http://arxiv.org/abs/2509.11598v1
- Date: Mon, 15 Sep 2025 05:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.16029
- Title: Disentangling Content from Style to Overcome Shortcut Learning: A Hybrid Generative-Discriminative Learning Framework
- Title(参考訳): コンテンツをスタイルからオーバーカムショートカット学習に遠ざける:ハイブリッドな生成-識別型学習フレームワーク
- Authors: Siming Fu, Sijun Dong, Xiaoliang Meng,
- Abstract要約: ショートカット学習は、本質的な構造の代わりにテクスチャのような表面的特徴を利用する。
本稿では,コンテンツスタイルの乱れを明示するハイブリッドフレームワークHyGDLを提案する。
我々は,スタイルを,ベクトル射影によって導出されるスタイル不変内容を表す表現の構成要素として分析的に定義する。
- 参考スコア(独自算出の注目度): 4.7403081236484335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of Self-Supervised Learning (SSL), its generalization is fundamentally hindered by Shortcut Learning, where models exploit superficial features like texture instead of intrinsic structure. We experimentally verify this flaw within the generative paradigm (e.g., MAE) and argue it is a systemic issue also affecting discriminative methods, identifying it as the root cause of their failure on unseen domains. While existing methods often tackle this at a surface level by aligning or separating domain-specific features, they fail to alter the underlying learning mechanism that fosters shortcut dependency. To address this at its core, we propose HyGDL (Hybrid Generative-Discriminative Learning Framework), a hybrid framework that achieves explicit content-style disentanglement. Our approach is guided by the Invariance Pre-training Principle: forcing a model to learn an invariant essence by systematically varying a bias (e.g., style) at the input while keeping the supervision signal constant. HyGDL operates on a single encoder and analytically defines style as the component of a representation that is orthogonal to its style-invariant content, derived via vector projection.
- Abstract(参考訳): 自己監督学習(SSL)の顕著な成功にもかかわらず、その一般化は基本的にはショートカット学習によって妨げられ、モデルは本質的な構造ではなくテクスチャのような表面的特徴を利用する。
生成パラダイム(例えば、MAE)におけるこの欠陥を実験的に検証し、差別的手法にも影響を及ぼす体系的な問題であり、未確認領域における障害の根本原因とみなす。
既存のメソッドはドメイン固有の機能を整列したり分離したりすることで、表面レベルでこの問題に取り組むことが多いが、ショートカットの依存関係を育む基盤となる学習メカニズムを変更することに失敗している。
そこで我々はHybrid Generative-Discriminative Learning Framework(Hybrid Generative-Discriminative Learning Framework)を提案する。
我々のアプローチは、不変事前学習原則(Invariance Pre-training Principle)によって導かれる: モデルは、監督信号の定数を維持しながら、入力におけるバイアス(例えばスタイル)を体系的に変化させることで、不変性を学ぶことを強制する。
HyGDLは単一のエンコーダ上で動作し、ベクトル射影によって導出されるスタイル不変内容に直交する表現のコンポーネントとしてスタイルを解析的に定義する。
関連論文リスト
- Style Blind Domain Generalized Semantic Segmentation via Covariance
Alignment and Semantic Consistence Contrastive Learning [1.8749305679160366]
BlindNetは、外部モジュールやデータセットなしでスタイルを無視する新しいDGSSアプローチである。
BlindNetは、共分散アライメントとセマンティックコントラスト学習という2つの重要なコンポーネントで構成されている。
提案手法は既存のDGSS手法よりも優れており,未確認対象ドメインに対するセマンティックセグメンテーションの堅牢性と優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-10T07:44:41Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Cluster-based Contrastive Disentangling for Generalized Zero-Shot
Learning [25.92340532509084]
Generalized Zero-Shot Learning (GZSL) は、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
本稿では,クラスタベースのContrastive Disentangling(CCD)手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T02:50:12Z) - From Anchor Generation to Distribution Alignment: Learning a
Discriminative Embedding Space for Zero-Shot Recognition [46.47620562161315]
ゼロショット学習(ZSL)では、分類されるサンプルは通常、属性などのサイド情報テンプレートに投影される。
我々は,DAGDA(Distriminative Anchor Generation and Distribution Alignment Model)と呼ばれる新しいフレームワークを提案する。
まず, 拡散型グラフ畳み込みネットワークを用いて, クラス情報と側情報の相互作用を明示的にモデル化し, 識別的アンカーを生成する手法を提案する。
第二に、アンカー空間におけるサンプルと対応するアンカーとをさらに整合させるため、細粒度に分布を洗練させることを目的として、意味的関係正則化を導入する。
論文 参考訳(メタデータ) (2020-02-10T05:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。