論文の概要: Long-Term Pre-training for Temporal Action Detection with Transformers
- arxiv url: http://arxiv.org/abs/2408.13152v1
- Date: Fri, 23 Aug 2024 15:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:41:09.630718
- Title: Long-Term Pre-training for Temporal Action Detection with Transformers
- Title(参考訳): 変圧器を用いた時間的行動検出のための長期事前訓練
- Authors: Jihwan Kim, Miso Lee, Jae-Pil Heo,
- Abstract要約: 時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本的なものである。
本稿では,データ不足による2つの重要な問題,すなわち注意崩壊と不均衡性能について述べる。
本稿では,変圧器に適した新しい事前学習戦略である長期事前学習を提案する。
- 参考スコア(独自算出の注目度): 21.164101507575186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action detection (TAD) is challenging, yet fundamental for real-world video applications. Recently, DETR-based models for TAD have been prevailing thanks to their unique benefits. However, transformers demand a huge dataset, and unfortunately data scarcity in TAD causes a severe degeneration. In this paper, we identify two crucial problems from data scarcity: attention collapse and imbalanced performance. To this end, we propose a new pre-training strategy, Long-Term Pre-training (LTP), tailored for transformers. LTP has two main components: 1) class-wise synthesis, 2) long-term pretext tasks. Firstly, we synthesize long-form video features by merging video snippets of a target class and non-target classes. They are analogous to untrimmed data used in TAD, despite being created from trimmed data. In addition, we devise two types of long-term pretext tasks to learn long-term dependency. They impose long-term conditions such as finding second-to-fourth or short-duration actions. Our extensive experiments show state-of-the-art performances in DETR-based methods on ActivityNet-v1.3 and THUMOS14 by a large margin. Moreover, we demonstrate that LTP significantly relieves the data scarcity issues in TAD.
- Abstract(参考訳): 時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本的なものである。
近年、DADのDETRベースのモデルは、そのユニークな利点により普及している。
しかし、トランスフォーマーは巨大なデータセットを必要とするため、残念なことにTADにおけるデータ不足は、深刻な変性を引き起こす。
本稿では,データ不足による2つの重要な問題,すなわち注意崩壊と不均衡性能について述べる。
そこで本研究では,変圧器に適した新たな事前学習戦略であるLong-Term Pre-Training(LTP)を提案する。
LTPには2つの主要コンポーネントがある。
1)クラスワイド合成。
2) 長期プレテキストタスク。
まず,対象クラスと非対象クラスのビデオスニペットを融合して,長大な映像特徴を合成する。
これらは、トリミングデータから生成されるにもかかわらず、TADで使用される未トリミングデータに類似している。
さらに、長期依存を学習するための2種類の長期前文タスクを考案した。
彼らは第2から第4の行動や短期の行動の発見などの長期的条件を課している。
広範囲にわたる実験により, DETR を用いた ActivityNet-v1.3 と THUMOS14 の最先端性能が大幅に向上した。
さらに, LTP はTAD におけるデータ不足問題を著しく軽減することを示した。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - DuETT: Dual Event Time Transformer for Electronic Health Records [14.520791492631114]
我々はDuETTアーキテクチャを紹介した。これは、時間とイベントの両タイプにまたがるように設計されたトランスフォーマーの拡張である。
DuETTは集約された入力を使用し、スパース時系列は一定長さの正規シーケンスに変換される。
本モデルでは,MIMIC-IV と PhysioNet-2012 EHR データセットを用いて,複数の下流タスクにおける最先端のディープラーニングモデルより優れています。
論文 参考訳(メタデータ) (2023-04-25T17:47:48Z) - Improved Test-Time Adaptation for Domain Generalization [48.239665441875374]
テストタイムトレーニング(TTT)は、学習したモデルにテストデータを適用する。
この作業は2つの主な要因に対処する: テストフェーズ中にアップデートする信頼性のあるパラメータを更新および識別するための適切な補助的TTTタスクを選択する。
トレーニングされたモデルに適応パラメータを追加し、テストフェーズでのみ適応パラメータを更新することを提案する。
論文 参考訳(メタデータ) (2023-04-10T10:12:38Z) - Rethink Long-tailed Recognition with Vision Transformers [18.73285611631722]
ビジョントランスフォーマー(ViT)は、長い尾のデータでトレーニングするのが難しい。
ViTは教師なしの方法で一般化された特徴を学習する。
予測分布(英: Predictive Distribution、PDC)は、長手認識のための新しい指標である。
論文 参考訳(メタデータ) (2023-02-28T03:36:48Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection [46.37418710853632]
複雑な設計の現況とTADにおける検出効率の低さを考慮し, 単純で, 単純で, かつ, 必須のベースラインについて検討する。
このベースラインのための各コンポーネントの既存のテクニックを幅広く調査し、さらに重要なのは、パイプライン全体にわたってエンドツーエンドのトレーニングを実行することです。
この単純なベーシックTADは、2ストリーム入力を持つ最先端の手法に非常に近い、驚くべきリアルタイムRGB-Onlyベースラインを得る。
論文 参考訳(メタデータ) (2022-05-05T15:42:56Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。