論文の概要: Long-Tailed Visual Recognition via Permutation-Invariant Head-to-Tail Feature Fusion
- arxiv url: http://arxiv.org/abs/2506.00625v1
- Date: Sat, 31 May 2025 16:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.374197
- Title: Long-Tailed Visual Recognition via Permutation-Invariant Head-to-Tail Feature Fusion
- Title(参考訳): Permutation-Invariant Head-to-Tail Feature Fusion による長期視覚認識
- Authors: Mengke Li, Zhikai Hu, Yang Lu, Weichao Lan, Yiu-ming Cheung, Hui Huang,
- Abstract要約: 長い尾を持つデータの不均衡分布は、ディープラーニングモデルにとって重要な課題である。
低認識精度に寄与する2つの重要な要因は、変形表現空間とバイアス分類器である。
本稿では,これらの問題に対処するため,置換不変な特徴融合(PI-H2T)を提案する。
- 参考スコア(独自算出の注目度): 37.62659619941791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The imbalanced distribution of long-tailed data presents a significant challenge for deep learning models, causing them to prioritize head classes while neglecting tail classes. Two key factors contributing to low recognition accuracy are the deformed representation space and a biased classifier, stemming from insufficient semantic information in tail classes. To address these issues, we propose permutation-invariant and head-to-tail feature fusion (PI-H2T), a highly adaptable method. PI-H2T enhances the representation space through permutation-invariant representation fusion (PIF), yielding more clustered features and automatic class margins. Additionally, it adjusts the biased classifier by transferring semantic information from head to tail classes via head-to-tail fusion (H2TF), improving tail class diversity. Theoretical analysis and experiments show that PI-H2T optimizes both the representation space and decision boundaries. Its plug-and-play design ensures seamless integration into existing methods, providing a straightforward path to further performance improvements. Extensive experiments on long-tailed benchmarks confirm the effectiveness of PI-H2T.
- Abstract(参考訳): 長い尾を持つデータの不均衡分布は、ディープラーニングモデルにとって重大な課題を示し、尾のクラスを無視しながらヘッドクラスを優先順位付けする。
低認識精度に寄与する2つの重要な要因は、末尾クラスのセマンティック情報不足から生じる変形表現空間とバイアス分類器である。
これらの問題に対処するために、高度に適応可能な手法である置換不変および頭と尾の機能融合(PI-H2T)を提案する。
PI-H2Tは置換不変表現融合(PIF)により表現空間を拡張し、よりクラスタ化された特徴と自動クラスマージンを得る。
さらに、H2TF(head-to-tail fusion)を介して、頭から尾のクラスに意味情報を伝達することでバイアス付き分類器を調整し、尾のクラスの多様性を向上させる。
理論的解析と実験により、PI-H2Tは表現空間と決定境界の両方を最適化することが示された。
プラグイン・アンド・プレイの設計により、既存のメソッドへのシームレスな統合が保証され、さらなるパフォーマンス改善への直接的な道筋を提供する。
ロングテールベンチマークの大規模な実験により、PI-H2Tの有効性が確認された。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Learning Diverse Features in Vision Transformers for Improved
Generalization [15.905065768434403]
視覚変換器(ViT)は、異なる注意頭を持つ頑丈で刺激的な特徴を抽出する傾向があることを示す。
このモジュラリティにより、分散シフト時の性能はテスト時に大幅に改善される。
本稿では,注目者の入力勾配の促進により,学習特徴の多様性と補完性をさらに向上する手法を提案する。
論文 参考訳(メタデータ) (2023-08-30T19:04:34Z) - Dual Compensation Residual Networks for Class Imbalanced Learning [98.35401757647749]
そこで本研究では,尾と頭の両方に適合する2次元補償残差ネットワークを提案する。
オーバーフィッティングを引き起こす重要な要因は、トレーニングとテールクラスのテストデータの間に深刻な特徴ドリフトがあることである。
また,不適合問題を軽減するためにResidual Balanced Multi-Proxies分類器を提案する。
論文 参考訳(メタデータ) (2023-08-25T04:06:30Z) - Feature Fusion from Head to Tail for Long-Tailed Visual Recognition [39.86973663532936]
テールクラスにおけるセマンティック情報の不十分に起因するバイアスのある決定境界は、認識精度の低下に寄与する重要な要因の1つである。
我々は,H2T(head-to-tail fusion)と呼ばれるヘッドクラスから多様な意味情報を移植することで,テールクラスを増強することを提案する。
理論的解析と実用実験の両方で、H2Tが決定境界に対してより最適化された解に寄与できることが示されている。
論文 参考訳(メタデータ) (2023-06-12T08:50:46Z) - FF2: A Feature Fusion Two-Stream Framework for Punctuation Restoration [27.14686854704104]
句読点復元のためのFeature Fusion two-stream framework (FF2)を提案する。
具体的には、あるストリームは、事前訓練された言語モデルを利用してセマンティック機能をキャプチャし、別の補助モジュールは、手元にある機能をキャプチャする。
追加データなしでは、人気のあるベンチマークIWSLTの実験結果はFF2が新しいSOTA性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-11-09T06:18:17Z) - Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation [87.13847750383778]
シーングラフ生成のための頭部述語と尾部述語の両方を扱うDual-branch Hybrid Learning Network (DHL)を提案する。
提案手法は,VGおよびGQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-16T11:53:50Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。