論文の概要: Inverse Image Frequency for Long-tailed Image Recognition
- arxiv url: http://arxiv.org/abs/2209.04861v2
- Date: Sat, 7 Oct 2023 12:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:19:58.421278
- Title: Inverse Image Frequency for Long-tailed Image Recognition
- Title(参考訳): ロングテール画像認識のための逆画像周波数
- Authors: Konstantinos Panagiotis Alexandridis and Shan Luo and Anh Nguyen and
Jiankang Deng and Stefanos Zafeiriou
- Abstract要約: Inverse Image Frequency (IIF) と呼ばれる新しいデバイアス法を提案する。
IIFは畳み込みニューラルネットワークの分類層におけるロジットの乗法的マージン調整変換である。
我々の実験では、IIFは長い尾のベンチマークにおいて、最先端の技術を超越していることが示されている。
- 参考スコア(独自算出の注目度): 59.40098825416675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long-tailed distribution is a common phenomenon in the real world.
Extracted large scale image datasets inevitably demonstrate the long-tailed
property and models trained with imbalanced data can obtain high performance
for the over-represented categories, but struggle for the under-represented
categories, leading to biased predictions and performance degradation. To
address this challenge, we propose a novel de-biasing method named Inverse
Image Frequency (IIF). IIF is a multiplicative margin adjustment transformation
of the logits in the classification layer of a convolutional neural network.
Our method achieves stronger performance than similar works and it is
especially useful for downstream tasks such as long-tailed instance
segmentation as it produces fewer false positive detections. Our extensive
experiments show that IIF surpasses the state of the art on many long-tailed
benchmarks such as ImageNet-LT, CIFAR-LT, Places-LT and LVIS, reaching 55.8%
top-1 accuracy with ResNet50 on ImageNet-LT and 26.2% segmentation AP with
MaskRCNN on LVIS. Code available at https://github.com/kostas1515/iif
- Abstract(参考訳): ロングテール分布は現実世界でよく見られる現象である。
抽出された大規模画像データセットは、不均衡なデータでトレーニングされたロングテール特性とモデルを必然的に示すことで、過剰に表現されたカテゴリに対して高いパフォーマンスを得ることができるが、未表示のカテゴリでは苦労し、偏りのある予測とパフォーマンスの低下をもたらす。
この課題に対処するために,逆画像周波数(IIF)という新しいデバイアス手法を提案する。
IIFは畳み込みニューラルネットワークの分類層におけるロジットの乗法的マージン調整変換である。
提案手法は, 類似作業よりも高い性能を達成し, 特に, 誤検出が少なくなるため, 長い尾のインスタンスセグメンテーションなどの下流タスクに有効である。
我々の広範な実験により、IIFはImageNet-LT、CIFAR-LT、Places-LT、LVISといった多くの長いベンチマークで、ImageNet-LTでResNet50、LVISでMaskRCNNで26.2%のセグメンテーションAPで55.8%の精度に達した。
コードはhttps://github.com/kostas1515/iifで利用可能
関連論文リスト
- Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of
Zoom and Spatial Biases in Image Classification [9.779748872936912]
入力画像の適切なフレーミングは、イメージネット画像の98.91%の正確な分類につながることを示す。
本稿では,モデルにズームイン操作を明示的に実行させることにより,分類精度を向上させるテスト時間拡張(TTA)手法を提案する。
論文 参考訳(メタデータ) (2023-04-11T23:55:50Z) - Improving GANs for Long-Tailed Data through Group Spectral
Regularization [51.58250647277375]
本稿では, スペクトル爆発によるモード崩壊を防止する新しいグループスペクトル正規化器 (gSR) を提案する。
我々は,gSRが既存の拡張および正規化技術と効果的に組み合わせることで,長期化データ上での最先端の画像生成性能が向上することを発見した。
論文 参考訳(メタデータ) (2022-08-21T17:51:05Z) - Revisiting Global Statistics Aggregation for Improving Image Restoration [8.803962179239385]
テスト時間局所統計変換器(TLSC)は画像復元器の性能を大幅に向上させる。
SEをTLSCに拡張することで、GoProデータセット上のPSNRにおいて、MPRNetは0.65dB、33.31dB、前回の0.6dBを超えている。
論文 参考訳(メタデータ) (2021-12-08T12:52:14Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Image Segmentation Using Hybrid Representations [2.414172101538764]
医用画像セグメンテーションのための DU-Net という,エンド・ツー・エンドのU-Net ベースのネットワークを提案する。
SCは変換不変であり、リプシッツは変形に連続し、DU-Netは他の従来のCNNよりも優れる。
提案手法は,最先端手法と競合する性能を持つ基本U-Netよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-15T13:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。