論文の概要: Empowering Vision Transformers with Multi-Scale Causal Intervention for Long-Tailed Image Classification
- arxiv url: http://arxiv.org/abs/2505.08173v1
- Date: Tue, 13 May 2025 02:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.395238
- Title: Empowering Vision Transformers with Multi-Scale Causal Intervention for Long-Tailed Image Classification
- Title(参考訳): 長期画像分類のためのマルチスケール因果干渉を用いた視覚変換器の強化
- Authors: Xiaoshuo Yan, Zhaochuan Li, Lei Meng, Zhuang Qi, Wei Wu, Zixuan Li, Xiangxu Meng,
- Abstract要約: 因果推論は、クラス不均衡によって引き起こされるバイアスを扱うことによって、長い尾の分類を緩和する有望なアプローチとして現れてきた。
本稿では,既存の因果モデルがCNNおよびViT変種に与える影響について検討する。
微粒な因果関係を発見するための2段階因果関係モデリング手法であるTSCNetを提案する。
- 参考スコア(独自算出の注目度): 12.122203089278738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal inference has emerged as a promising approach to mitigate long-tail classification by handling the biases introduced by class imbalance. However, along with the change of advanced backbone models from Convolutional Neural Networks (CNNs) to Visual Transformers (ViT), existing causal models may not achieve an expected performance gain. This paper investigates the influence of existing causal models on CNNs and ViT variants, highlighting that ViT's global feature representation makes it hard for causal methods to model associations between fine-grained features and predictions, which leads to difficulties in classifying tail classes with similar visual appearance. To address these issues, this paper proposes TSCNet, a two-stage causal modeling method to discover fine-grained causal associations through multi-scale causal interventions. Specifically, in the hierarchical causal representation learning stage (HCRL), it decouples the background and objects, applying backdoor interventions at both the patch and feature level to prevent model from using class-irrelevant areas to infer labels which enhances fine-grained causal representation. In the counterfactual logits bias calibration stage (CLBC), it refines the optimization of model's decision boundary by adaptive constructing counterfactual balanced data distribution to remove the spurious associations in the logits caused by data distribution. Extensive experiments conducted on various long-tail benchmarks demonstrate that the proposed TSCNet can eliminate multiple biases introduced by data imbalance, which outperforms existing methods.
- Abstract(参考訳): 因果推論は、クラス不均衡によって引き起こされるバイアスを扱うことによって、長い尾の分類を緩和する有望なアプローチとして現れてきた。
しかし、畳み込みニューラルネットワーク(CNN)からビジュアルトランスフォーマー(ViT)への高度なバックボーンモデルの変更とともに、既存の因果モデルでは期待されるパフォーマンス向上が得られない可能性がある。
本稿では、既存の因果モデルがCNNやViTの変種に与える影響を考察し、ViTのグローバルな特徴表現は、細粒度の特徴と予測の関連をモデル化する因果的手法を困難にし、類似した視覚的外観を持つ末尾クラスを分類することが困難であることを示す。
これらの課題に対処するために,マルチスケール因果的介入による微粒な因果関係を発見するための2段階因果関係モデリング手法であるTSCNetを提案する。
具体的には、階層的因果表現学習段階(HCRL)において、背景と対象を分離し、パッチと特徴レベルのバックドア介入を適用し、モデルがクラス非関連領域を使用しないようにし、きめ細かい因果表現を高めるラベルを推論する。
対物的ロジットバイアス校正段階(CLBC)において、対物的平衡データ分布を適応的に構築することにより、モデル決定境界の最適化を行い、データ分布に起因するロジットの急激な関連を除去する。
様々なロングテールベンチマークで実施された大規模な実験により、提案したTSCNetは、データ不均衡によって引き起こされる複数のバイアスを排除し、既存の手法より優れていることが示された。
関連論文リスト
- Federated Deconfounding and Debiasing Learning for Out-of-Distribution Generalization [25.181305392387802]
連合学習(FL)における属性バイアスは、典型的には非因果関係の学習により、非矛盾的に局所モデルを最適化する。
本稿では,Underated UnderlineDeconfounding and UnderlineDebiasing UnderlineLearning (FedDDL)法を提案する。
構造化された因果グラフを構築してモデル推論プロセスを分析し、バックドア調整を行い、相反する経路を除去する。
論文 参考訳(メタデータ) (2025-05-08T06:32:59Z) - A Causal Adjustment Module for Debiasing Scene Graph Generation [28.44150555570101]
我々は、歪んだ分布間の因果関係をモデル化するために因果推論技術を用いる。
提案手法により,ゼロショット関係の合成が可能となり,そのような関係を認識できるモデルの性能が向上する。
論文 参考訳(メタデータ) (2025-03-22T20:44:01Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - De-Biasing Generative Models using Counterfactual Methods [0.0]
我々はCausal Counterfactual Generative Model (CCGM) と呼ばれる新しいデコーダベースのフレームワークを提案する。
提案手法は,因果関係の忠実さを強調するために,因果関係の潜在空間VAEモデルと特定の修正を加えたものである。
因果的学習と符号化/復号化が因果的介入の質をいかに高めるかを検討する。
論文 参考訳(メタデータ) (2022-07-04T16:53:20Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。