論文の概要: Mixture of Balanced Information Bottlenecks for Long-Tailed Visual Recognition
- arxiv url: http://arxiv.org/abs/2509.01804v1
- Date: Mon, 01 Sep 2025 22:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.851213
- Title: Mixture of Balanced Information Bottlenecks for Long-Tailed Visual Recognition
- Title(参考訳): 長期視覚認識のためのバランス情報ブースネックの混合
- Authors: Yifan Lan, Xin Cai, Jun Cheng, Shan Tan,
- Abstract要約: 情報ボトルネック(IB)は表現学習におけるエレガントなアプローチである。
本稿では、損失関数の再分散と自己蒸留技術を統合したバランス情報ボトルネック(BIB)手法を提案する。
我々は、CIFAR100-LT、ImageNet-LT、iNaturalist 2018など、よく使われる長い尾のデータセットの実験を行っている。
- 参考スコア(独自算出の注目度): 17.86146554162004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) have achieved significant success in various applications with large-scale and balanced data. However, data in real-world visual recognition are usually long-tailed, bringing challenges to efficient training and deployment of DNNs. Information bottleneck (IB) is an elegant approach for representation learning. In this paper, we propose a balanced information bottleneck (BIB) approach, in which loss function re-balancing and self-distillation techniques are integrated into the original IB network. BIB is thus capable of learning a sufficient representation with essential label-related information fully preserved for long-tailed visual recognition. To further enhance the representation learning capability, we also propose a novel structure of mixture of multiple balanced information bottlenecks (MBIB), where different BIBs are responsible for combining knowledge from different network layers. MBIB facilitates an end-to-end learning strategy that trains representation and classification simultaneously from an information theory perspective. We conduct experiments on commonly used long-tailed datasets, including CIFAR100-LT, ImageNet-LT, and iNaturalist 2018. Both BIB and MBIB reach state-of-the-art performance for long-tailed visual recognition.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、大規模でバランスの取れたデータを持つ様々なアプリケーションで大きな成功を収めている。
しかし、現実の視覚認識におけるデータは、通常、長い目で見ることができ、DNNの効率的なトレーニングと展開に困難をもたらす。
情報ボトルネック(IB)は表現学習におけるエレガントなアプローチである。
本稿では、損失関数の再分散と自己蒸留技術が元のISBネットワークに統合されたバランス情報ボトルネック(BIB)アプローチを提案する。
これにより、BIBは、長い尾の視覚認識のために、必須ラベル関連情報を完全保存した十分な表現を学習することができる。
さらに表現学習能力を高めるために,複数のバランス情報ボトルネック(MBIB)が混在する新たな構造を提案し,複数のBIBが異なるネットワーク層からの知識を結合する役割を担っている。
MBIBは情報理論の観点から表現と分類を同時に訓練するエンドツーエンドの学習戦略を促進する。
我々は、CIFAR100-LT、ImageNet-LT、iNaturalist 2018など、よく使われる長い尾のデータセットの実験を行っている。
BIBとMBIBはどちらも、長い尾の視覚認識のための最先端の性能を達成している。
関連論文リスト
- Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation [34.46089300038851]
行動クローニング(BC)は、ロボット操作において広く採用されている視覚模倣学習手法である。
我々は,潜在表現における冗長性を定量化し緩和するために相互情報を導入する。
本研究は, 様々な方法, バックボーン, 実験環境における潜在表現の冗長性に関する最初の包括的研究である。
論文 参考訳(メタデータ) (2025-02-05T03:13:04Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Epistemic Graph: A Plug-And-Play Module For Hybrid Representation
Learning [46.48026220464475]
人間はハイブリッド学習を示し、クロスドメイン認識のための構造化された知識をシームレスに統合したり、少量の学習のために少量のデータサンプルに依存する。
本稿では, 深部特徴と構造化知識グラフ間の情報交換を促進し, ハイブリッド学習を実現するための新しいエピステミックグラフ層(EGLayer)を提案する。
論文 参考訳(メタデータ) (2023-05-30T04:10:15Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。