論文の概要: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2211.14053v1
- Date: Fri, 25 Nov 2022 12:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:33:50.039078
- Title: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- Title(参考訳): Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト
- Authors: Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem
- Abstract要約: 時間的行動ローカライゼーション(TAL)は、様々な長さと複雑な内容の行動を予測するために、長期的推論を必要とする。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
Re2TALの平均mAPは37.01%に達し、ActivityNet-v1.3では最新記録となり、THUMOS-14ではtIoU=0.5でmAP 64.9%となった。
- 参考スコア(独自算出の注目度): 65.33914980022303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) requires long-form reasoning to predict
actions of various lengths and complex content. Given limited GPU memory,
training TAL end-to-end on such long-form videos (i.e., from videos to
predictions) is a significant challenge. Most methods can only train on
pre-extracted features without optimizing them for the localization problem,
consequently limiting localization performance. In this work, to extend the
potential in TAL networks, we propose a novel end-to-end method Re2TAL, which
rewires pretrained video backbones for reversible TAL. Re2TAL builds a backbone
with reversible modules, where the input can be recovered from the output such
that the bulky intermediate activations can be cleared from memory during
training. Instead of designing one single type of reversible module, we propose
a network rewiring mechanism, to transform any module with a residual
connection to a reversible module without changing any parameters. This
provides two benefits: (1) a large variety of reversible networks are easily
obtained from existing and even future model designs, and (2) the reversible
models require much less training effort as they reuse the pre-trained
parameters of their original non-reversible versions. Re2TAL reaches 37.01%
average mAP, a new state-of-the-art record on ActivityNet-v1.3, and mAP 64.9%
at tIoU=0.5 on THUMOS-14 without using optimal flow.
- Abstract(参考訳): 時間的行動定位(tal)は、様々な長さと複雑な内容の行動を予測するのに長い形式の推論を必要とする。
限られたGPUメモリを考えると、このような長ビデオ(ビデオから予測まで)でTALのエンドツーエンドをトレーニングすることは大きな課題である。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。
本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。
Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。
我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。
これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。
Re2TALの平均mAPは37.01%に達し、ActivityNet-v1.3では最新記録となり、THUMOS-14ではtIoU=0.5で64.9%となった。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z) - Invertible Residual Network with Regularization for Effective Medical
Image Segmentation [2.76240219662896]
バックプロパゲーションを用いたニューラルネットワークのトレーニングにおいて、アクティベーションメモリフットプリントを大幅に削減するために、可逆ニューラルネットワークが適用されている。
可逆残存ネットワーク(部分可逆残存ネットワーク, Partially-InvRes)と完全可逆残存ネットワーク(Fully-InvRes)の2つのバージョンを提案する。
この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。
論文 参考訳(メタデータ) (2021-03-16T13:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。