論文の概要: Knowledge Amalgamation for Object Detection with Transformers
- arxiv url: http://arxiv.org/abs/2203.03187v1
- Date: Mon, 7 Mar 2022 07:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:32:10.058338
- Title: Knowledge Amalgamation for Object Detection with Transformers
- Title(参考訳): 変圧器を用いた物体検出のための知識融合
- Authors: Haofei Zhang, Feng Mao, Mengqi Xue, Gongfan Fang, Zunlei Feng, Jie
Song, Mingli Song
- Abstract要約: ナレッジ・アマルガメーション (Knowledge Amalgamation, KA) は、数名の訓練を受けた教師から小学生に知識を伝達することを目的とした、新しいディープ・モデル・リユース・タスクである。
我々は,KAをシーケンスレベル・アマルガメーション(SA)とタスクレベル・アマルガメーション(TA)の2つの側面に分解することを提案する。
特に、教師シーケンスを固定サイズのものに冗長に集約する代わりに、教師シーケンスを連結することにより、シーケンスレベルのアマルガメーション内でヒントを生成する。
- 参考スコア(独自算出の注目度): 36.7897364648987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge amalgamation (KA) is a novel deep model reusing task aiming to
transfer knowledge from several well-trained teachers to a multi-talented and
compact student. Currently, most of these approaches are tailored for
convolutional neural networks (CNNs). However, there is a tendency that
transformers, with a completely different architecture, are starting to
challenge the domination of CNNs in many computer vision tasks. Nevertheless,
directly applying the previous KA methods to transformers leads to severe
performance degradation. In this work, we explore a more effective KA scheme
for transformer-based object detection models. Specifically, considering the
architecture characteristics of transformers, we propose to dissolve the KA
into two aspects: sequence-level amalgamation (SA) and task-level amalgamation
(TA). In particular, a hint is generated within the sequence-level amalgamation
by concatenating teacher sequences instead of redundantly aggregating them to a
fixed-size one as previous KA works. Besides, the student learns heterogeneous
detection tasks through soft targets with efficiency in the task-level
amalgamation. Extensive experiments on PASCAL VOC and COCO have unfolded that
the sequence-level amalgamation significantly boosts the performance of
students, while the previous methods impair the students. Moreover, the
transformer-based students excel in learning amalgamated knowledge, as they
have mastered heterogeneous detection tasks rapidly and achieved superior or at
least comparable performance to those of the teachers in their specializations.
- Abstract(参考訳): 知識融合 (knowledge amalgamation, ka) は,複数の教師から知識を転用することを目的とした,新しい深層モデルである。
現在、これらのアプローチのほとんどは畳み込みニューラルネットワーク(CNN)用に調整されている。
しかし、全く異なるアーキテクチャを持つトランスフォーマは、多くのコンピュータビジョンタスクにおいてcnnの支配に挑戦し始めている傾向があります。
しかし, 従来のKA法を直接変換器に適用すると, 性能が著しく低下する。
本研究では,トランスを用いたオブジェクト検出モデルに対して,より効率的なKA方式を提案する。
具体的には, 変圧器のアーキテクチャ特性を考慮して, KAをシーケンスレベル・アマルガメーション(SA)とタスクレベル・アマルガメーション(TA)の2つの側面に分解することを提案する。
特に、前回のka作品のように、教師シーケンスを冗長に集約するのではなく、教師シーケンスを結合することで、シーケンスレベルのアマルガメーション内でヒントが生成される。
さらに,課題レベルのアマルガメーションにおいて,ソフトターゲットによる異種検出タスクを効率よく学習する。
PASCAL VOCとCOCOの大規模な実験により、このシーケンスレベルのアマルガメーションは学生のパフォーマンスを著しく向上させ、従来の方法では学生に障害を与えていた。
また,不均質な検出タスクを迅速に習得し,その専門化において教師の優れた,あるいは少なくとも同等のパフォーマンスを達成しているため,トランスフォーマティブ・ベースの学生は,融合した知識の習得に長けている。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Remembering Transformer for Continual Learning [9.879896956915598]
本稿では,脳の補足学習システムにインスパイアされたリマインドトランスフォーマーを提案する。
覚えておくTransformerは、アダプタの混合アーキテクチャと、生成モデルに基づく新規性検出機構を採用している。
本研究は, 新奇性検出機構のアブレーション研究や, 適応剤のモデルキャパシティなど, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:22:14Z) - Associative Transformer [26.967506484952214]
本稿では,少人数の入力パッチ間の関連性を高めるために,Associative Transformer (AiT)を提案する。
AiTはVision Transformerよりもはるかに少ないパラメータとアテンション層を必要とする。
論文 参考訳(メタデータ) (2023-09-22T13:37:10Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:18:58Z) - E2-AEN: End-to-End Incremental Learning with Adaptively Expandable
Network [57.87240860624937]
本稿では,E2-AENという,エンドツーエンドのトレーニング可能な適応拡張可能なネットワークを提案する。
以前のタスクの精度を落とさずに、新しいタスクのための軽量な構造を動的に生成する。
E2-AENはコストを削減し、あらゆるフィードフォワードアーキテクチャをエンドツーエンドで構築できる。
論文 参考訳(メタデータ) (2022-07-14T09:04:51Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。