論文の概要: COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers
- arxiv url: http://arxiv.org/abs/2309.01270v1
- Date: Sun, 3 Sep 2023 20:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:20:57.127762
- Title: COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers
- Title(参考訳): COMEDIAN:変圧器を用いた行動スポッティングのための自己指導型学習と知識蒸留
- Authors: Julien Denize, Mykola Liashuha, Jaonary Rabarisoa, Astrid Orcesi,
Romain H\'erault
- Abstract要約: COMEDIANは、アクションスポッティングのための時間レベルのトランスフォーマーを初期化するパイプラインである。
この結果から,パフォーマンスの向上や収束の高速化など,事前学習パイプラインのメリットが浮かび上がっている。
- 参考スコア(独自算出の注目度): 1.894259749028573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present COMEDIAN, a novel pipeline to initialize spatio-temporal
transformers for action spotting, which involves self-supervised learning and
knowledge distillation. Action spotting is a timestamp-level temporal action
detection task. Our pipeline consists of three steps, with two initialization
stages. First, we perform self-supervised initialization of a spatial
transformer using short videos as input. Additionally, we initialize a temporal
transformer that enhances the spatial transformer's outputs with global context
through knowledge distillation from a pre-computed feature bank aligned with
each short video segment. In the final step, we fine-tune the transformers to
the action spotting task. The experiments, conducted on the SoccerNet-v2
dataset, demonstrate state-of-the-art performance and validate the
effectiveness of COMEDIAN's pretraining paradigm. Our results highlight several
advantages of our pretraining pipeline, including improved performance and
faster convergence compared to non-pretrained models.
- Abstract(参考訳): 自己教師付き学習と知識蒸留を含む行動スポッティングのための時空間トランスフォーマーを初期化する新しいパイプラインであるcomndianを提案する。
アクションスポッティングはタイムスタンプレベルの時間的アクション検出タスクである。
私たちのパイプラインは3つのステップから成り、2つの初期化ステージがあります。
まず,短い映像を入力として空間トランスの自己教師付き初期化を行う。
さらに,空間変換器の出力をグローバルな文脈で拡張する時間変換器を,各ショートビデオセグメントに整列した計算済み特徴バンクからの知識蒸留により初期化する。
最後のステップでは、トランスをアクションスポッティングタスクに微調整します。
SoccerNet-v2データセットで実施された実験は、最先端のパフォーマンスを示し、COMEDIANの事前学習パラダイムの有効性を検証する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにした。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - An Efficient Spatio-Temporal Pyramid Transformer for Action Detection [40.68615998427292]
動作検出のための効率的な階層型時空間ピラミッド変換(STPT)ビデオフレームワークを提案する。
具体的には,早期の局所的時間的リッチタイム表現を符号化するために,局所的ウィンドウアテンションを用いて,後期の長期的時空間依存を捕捉するためにグローバルなアテンションを適用することを提案する。
このように、当社のSTPTは、局所性と依存性の両方を大幅に冗長化してエンコードすることができ、正確性と効率の両立を期待できるトレードオフを提供します。
論文 参考訳(メタデータ) (2022-07-21T12:38:05Z) - Continual Transformers: Redundancy-Free Attention for Online Inference [86.3361797111839]
連続的な入力ストリームにおいて、トランスフォーマーが効率的なオンライントークン・バイ・トケン推論を行うことができるスケールド・ドット・プロダクト・アテンション(Scaled Dot-Product Attention)の新たな定式化を提案する。
我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。
論文 参考訳(メタデータ) (2022-01-17T08:20:09Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。