論文の概要: Multi-Scale Aligned Distillation for Low-Resolution Detection
- arxiv url: http://arxiv.org/abs/2109.06875v1
- Date: Tue, 14 Sep 2021 12:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:03:02.988495
- Title: Multi-Scale Aligned Distillation for Low-Resolution Detection
- Title(参考訳): 低分解能検出のためのマルチスケールアライメント蒸留
- Authors: Lu Qi, Jason Kuen, Jiuxiang Gu, Zhe Lin, Yi Wang, Yukang Chen, Yanwei
Li, Jiaya Jia
- Abstract要約: 本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
- 参考スコア(独自算出の注目度): 68.96325141432078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In instance-level detection tasks (e.g., object detection), reducing input
resolution is an easy option to improve runtime efficiency. However, this
option traditionally hurts the detection performance much. This paper focuses
on boosting the performance of low-resolution models by distilling knowledge
from a high- or multi-resolution model. We first identify the challenge of
applying knowledge distillation (KD) to teacher and student networks that act
on different input resolutions. To tackle it, we explore the idea of spatially
aligning feature maps between models of varying input resolutions by shifting
feature pyramid positions and introduce aligned multi-scale training to train a
multi-scale teacher that can distill its knowledge to a low-resolution student.
Further, we propose crossing feature-level fusion to dynamically fuse teacher's
multi-resolution features to guide the student better. On several
instance-level detection tasks and datasets, the low-resolution models trained
via our approach perform competitively with high-resolution models trained via
conventional multi-scale training, while outperforming the latter's
low-resolution models by 2.1% to 3.6% in terms of mAP. Our code is made
publicly available at https://github.com/dvlab-research/MSAD.
- Abstract(参考訳): インスタンスレベルの検出タスク(オブジェクト検出など)では、入力解像度の削減がランタイム効率を改善するための簡単な選択肢である。
しかし、このオプションは伝統的に検出性能を損なう。
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能向上に焦点をあてる。
まず、異なる入力解像度で機能する教師や学生ネットワークに知識蒸留(KD)を適用することの課題を特定する。
そこで本研究では,特徴ピラミッドの位置をシフトさせることで,入力解像度の異なるモデル間で特徴マップを空間的に整列させ,その知識を低解像度の学生に割くことができるマルチスケール教師を訓練するためのアライメントマルチスケールトレーニングを導入する。
さらに,教師のマルチレゾリューション機能を動的に融合させ,生徒の指導力を高めるための機能レベル融合を提案する。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて、このアプローチで訓練された低分解能モデルは、従来のマルチスケールトレーニングで訓練された高分解能モデルと競合する。
私たちのコードはhttps://github.com/dvlab-research/MSAD.comで公開されています。
関連論文リスト
- TDDSR: Single-Step Diffusion with Two Discriminators for Super Resolution [28.174638880324014]
本稿では,効率的な単一ステップ拡散に基づく超解像法であるTDDSRを提案する。
本手法は,教師の事前学習モデルから抽出し,拡散ネットワークに基づいて,単一ステップで超解像を行う。
実世界および顔固有のSRタスク間で有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-10-10T07:12:46Z) - Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。
本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文 参考訳(メタデータ) (2024-05-19T04:57:17Z) - Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection [4.0679780034913335]
知識蒸留に基づくマルチクラスの異常検出では、低レイテンシで十分なパフォーマンスが期待できるが、1クラスのバージョンに比べて大幅に低下する。
教師と学生のネットワーク間の蒸留プロセスを改善するDCAM(Distributed Convolutional Attention Module)を提案する。
論文 参考訳(メタデータ) (2024-05-10T13:25:39Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。