論文の概要: Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition
- arxiv url: http://arxiv.org/abs/2103.16370v1
- Date: Tue, 30 Mar 2021 14:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 18:09:57.041742
- Title: Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition
- Title(参考訳): 分散アライメント:ロングテール視覚認識のための統一フレームワーク
- Authors: Songyang Zhang, Zeming Li, Shipeng Yan, Xuming He, Jian Sun
- Abstract要約: 長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
- 参考スコア(独自算出の注目度): 52.36728157779307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of deep neural networks, it remains challenging to
effectively model the long-tail class distribution in visual recognition tasks.
To address this problem, we first investigate the performance bottleneck of the
two-stage learning framework via ablative study. Motivated by our discovery, we
propose a unified distribution alignment strategy for long-tail visual
recognition. Specifically, we develop an adaptive calibration function that
enables us to adjust the classification scores for each data point. We then
introduce a generalized re-weight method in the two-stage learning to balance
the class prior, which provides a flexible and unified solution to diverse
scenarios in visual recognition tasks. We validate our method by extensive
experiments on four tasks, including image classification, semantic
segmentation, object detection, and instance segmentation. Our approach
achieves the state-of-the-art results across all four recognition tasks with a
simple and unified framework. The code and models will be made publicly
available at: https://github.com/Megvii-BaseDetection/DisAlign
- Abstract(参考訳): 近年のディープニューラルネットワークの成功にもかかわらず、視覚認識タスクのロングテールクラス分布を効果的にモデル化することは依然として困難である。
この問題に対処するため,まず2段階学習フレームワークの性能ボトルネックをアブレーティブスタディを用いて検討する。
この発見に動機づけられて,ロングテール視覚認識のための統一分布アライメント戦略を提案する。
具体的には,各データポイントの分類スコアを調整可能な適応キャリブレーション関数を開発した。
次に,2段階学習における一般化された再重み付け手法を導入し,視覚認識タスクの多様なシナリオに対して,柔軟で統一されたソリューションを提供する。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションの4つのタスクについて,広範囲にわたる実験により検証を行った。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
コードとモデルは、https://github.com/Megvii-BaseDetection/DisAlignで公開されます。
関連論文リスト
- CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Self-supervised Learning with Fully Convolutional Networks [24.660086792201263]
セマンティックセグメンテーションのためのラベルのないデータから表現を学習する問題に焦点を当てる。
2つのパッチベース手法に着想を得て,新しい自己教師付き学習フレームワークを開発した。
ベースラインモデルに対して5.8ポイント改善を達成しました。
論文 参考訳(メタデータ) (2020-12-18T02:31:28Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。