論文の概要: KS-DETR: Knowledge Sharing in Attention Learning for Detection
Transformer
- arxiv url: http://arxiv.org/abs/2302.11208v1
- Date: Wed, 22 Feb 2023 08:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 16:00:16.949870
- Title: KS-DETR: Knowledge Sharing in Attention Learning for Detection
Transformer
- Title(参考訳): KS-DETR:検出変圧器の注意学習における知識共有
- Authors: Kaikai Zhao and Norimichi Ukita
- Abstract要約: 我々は,DTRの精度を向上させるために,小型ドット製品注意の学習を改善する方法について検討した。
提案手法は, 地中真理フォアグラウンド・バックグラウンドマスク (GT Fg-Bg Mask) を重み/値学習における付加的な手がかりとして使用することにより, より優れた重み/値の学習を可能にする。
様々なDETRライクな手法の実験では、MS COCOベンチマークのベースライン法よりも一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 8.104557130048407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaled dot-product attention applies a softmax function on the scaled
dot-product of queries and keys to calculate weights and then multiplies the
weights and values. In this work, we study how to improve the learning of
scaled dot-product attention to improve the accuracy of DETR. Our method is
based on the following observations: using ground truth foreground-background
mask (GT Fg-Bg Mask) as additional cues in the weights/values learning enables
learning much better weights/values; with better weights/values, better
values/weights can be learned. We propose a triple-attention module in which
the first attention is a plain scaled dot-product attention, the second/third
attention generates high-quality weights/values (with the assistance of GT
Fg-Bg Mask) and shares the values/weights with the first attention to improve
the quality of values/weights. The second and third attentions are removed
during inference. We call our method knowledge-sharing DETR (KS-DETR), which is
an extension of knowledge distillation (KD) in the way that the improved
weights and values of the teachers (the second and third attentions) are
directly shared, instead of mimicked, by the student (the first attention) to
enable more efficient knowledge transfer from the teachers to the student.
Experiments on various DETR-like methods show consistent improvements over the
baseline methods on the MS COCO benchmark. Code is available at
https://github.com/edocanonymous/KS-DETR.
- Abstract(参考訳): スケールされたドット積の注意は、クエリとキーのスケールされたドット積にソフトマックス関数を適用してウェイトを計算し、ウェイトと値を乗算する。
本研究では,DTRの精度を向上させるために,大規模ドット積注意の学習を改善する方法について検討する。
提案手法は, 地中真理フォアグラウンド・バックグラウンドマスク(GT Fg-Bg Mask)をウェイト/バリュー学習における付加的な手がかりとして用いることにより, より優れたウェイト/バリューを学習できる。
本稿では,第1の注目点が平らなドット積の注意点であり,第2/第3の注意点が(GT Fg-Bg Mask の助けを借りて)高品質な重み/値を生成し,第1の注意点と重みを共有して値/重みの質を向上させる三重みモジュールを提案する。
第2および第3の注意は推論中に取り除かれる。
我々は,本手法を知識分担型DETR (KS-DETR) と呼ぶ。これは知識蒸留(KD)の拡張であり,教師の体重と価値の改善(第2,第3の注意)が,学生(第1の注意)によって模倣されるのではなく,直接的に共有され,教師から生徒へのより効率的な知識伝達を可能にする方法である。
様々なDETRライクな手法の実験では、MS COCOベンチマークのベースライン法よりも一貫した改善が見られた。
コードはhttps://github.com/edocanonymous/KS-DETRで公開されている。
関連論文リスト
- CLASSP: a Biologically-Inspired Approach to Continual Learning through Adjustment Suppression and Sparsity Promotion [0.0]
本稿では,適応抑制・分散促進(CLASSP)による継続学習という新しい学習手法を提案する。
CLASSPは神経科学、特にシナプス伝達と長期増強の文脈で観察される2つの主要な原理に基づいている。
Elastic Weight Consolidation (EWC)データセットと比較すると、CLASSPは精度とメモリフットプリントの点で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-29T13:31:00Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Weight-Inherited Distillation for Task-Agnostic BERT Compression [32.11089146150042]
本稿では,教師から直接知識を伝達するWID(Weight-Inherited Distillation)を提案する。
WIDは追加のアライメント損失を必要とせず、重みを継承することでコンパクトな学生を訓練する。
GLUEとSQuADのベンチマーク実験の結果、WIDは従来のKDベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T01:51:22Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation [74.67594286008317]
本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。
本稿では,点レベルとボクセルレベルの両方から隠れた知識を伝達するPVDを提案する。
論文 参考訳(メタデータ) (2022-06-05T05:28:32Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z) - How Knowledge Graph and Attention Help? A Quantitative Analysis into
Bag-level Relation Extraction [66.09605613944201]
バッグレベルの関係抽出(RE)における注意と知識グラフの効果を定量的に評価する。
その結果,(1)注目精度の向上は,エンティティ参照特徴を抽出するモデルの性能を損なう可能性があること,(2)注目性能は様々なノイズ分布パターンの影響が大きいこと,(3)KG強化された注目はRE性能を向上するが,その効果は注目度を向上させるだけでなく,先行するエンティティを組み込むことによっても改善することがわかった。
論文 参考訳(メタデータ) (2021-07-26T09:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。