論文の概要: End-to-End Temporal Action Detection with 1B Parameters Across 1000
Frames
- arxiv url: http://arxiv.org/abs/2311.17241v1
- Date: Tue, 28 Nov 2023 21:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 23:15:01.779068
- Title: End-to-End Temporal Action Detection with 1B Parameters Across 1000
Frames
- Title(参考訳): 1000フレームの1Bパラメータによる終端動作検出
- Authors: Shuming Liu, Chen-Lin Zhang, Chen Zhao, Bernard Ghanem
- Abstract要約: 時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
本稿では,エンド・ツー・エンドのトレーニングにおけるメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
- 参考スコア(独自算出の注目度): 60.88096113158131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, temporal action detection (TAD) has seen significant performance
improvement with end-to-end training. However, due to the memory bottleneck,
only models with limited scales and limited data volumes can afford end-to-end
training, which inevitably restricts TAD performance. In this paper, we reduce
the memory consumption for end-to-end training, and manage to scale up the TAD
backbone to 1 billion parameters and the input video to 1,536 frames, leading
to significant detection performance. The key to our approach lies in our
proposed temporal-informative adapter (TIA), which is a novel lightweight
module that reduces training memory. Using TIA, we free the humongous backbone
from learning to adapt to the TAD task by only updating the parameters in TIA.
TIA also leads to better TAD representation by temporally aggregating context
from adjacent frames throughout the backbone. We evaluate our model across four
representative datasets. Owing to our efficient design, we are able to train
end-to-end on VideoMAEv2-giant and achieve 75.4% mAP on THUMOS14, being the
first end-to-end model to outperform the best feature-based methods.
- Abstract(参考訳): 近年,エンドツーエンドトレーニングによる時間的行動検出(tad)の性能向上がみられた。
しかし、メモリボトルネックのため、制限されたスケールと限られたデータボリュームを持つモデルだけがエンドツーエンドのトレーニングを受けられるため、必然的にtadパフォーマンスが制限される。
本稿では,エンド・ツー・エンドのトレーニングにおけるメモリ消費を削減し,10億のパラメータと入力ビデオの容量を1,536フレームに拡大し,検出性能を著しく向上させる。
このアプローチの鍵は、トレーニングメモリを減らす新しい軽量モジュールであるtia(temporal-informative adapter)の提案にあります。
TIAを用いて,TADタスクに適応するために,TAAのパラメータのみを更新することで,背骨を学習から解放する。
TIAはまた、背骨全体に隣接するフレームから時間的にコンテキストを集約することで、TAD表現を改善する。
モデルを4つの代表的なデータセットで評価します。
効率的な設計のため、VideoMAEv2-giantでエンドツーエンドをトレーニングし、THUMOS14で75.4%のmAPを達成できます。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。