論文の概要: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2211.14053v2
- Date: Tue, 28 Mar 2023 08:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 19:18:02.807621
- Title: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- Title(参考訳): Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト
- Authors: Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem
- Abstract要約: 時間的行動ローカライゼーション(TAL)は、様々な期間と複雑な内容の行動を予測するために、長期的推論を必要とする。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングできる。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
- 参考スコア(独自算出の注目度): 65.33914980022303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) requires long-form reasoning to predict
actions of various durations and complex content. Given limited GPU memory,
training TAL end to end (i.e., from videos to predictions) on long videos is a
significant challenge. Most methods can only train on pre-extracted features
without optimizing them for the localization problem, consequently limiting
localization performance. In this work, to extend the potential in TAL
networks, we propose a novel end-to-end method Re2TAL, which rewires pretrained
video backbones for reversible TAL. Re2TAL builds a backbone with reversible
modules, where the input can be recovered from the output such that the bulky
intermediate activations can be cleared from memory during training. Instead of
designing one single type of reversible module, we propose a network rewiring
mechanism, to transform any module with a residual connection to a reversible
module without changing any parameters. This provides two benefits: (1) a large
variety of reversible networks are easily obtained from existing and even
future model designs, and (2) the reversible models require much less training
effort as they reuse the pre-trained parameters of their original
non-reversible versions. Re2TAL, only using the RGB modality, reaches 37.01%
average mAP on ActivityNet-v1.3, a new state-of-the-art record, and mAP 64.9%
at tIoU=0.5 on THUMOS-14, outperforming all other RGB-only methods.
- Abstract(参考訳): 時間的行動定位(tal)は、様々な持続時間と複雑な内容の行動を予測するために長い形式の推論を必要とする。
GPUメモリが限られているため、長いビデオでTALのエンドツーエンド(ビデオから予測まで)をトレーニングすることは大きな課題である。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。
本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。
Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。
我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。
これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。
RGBモードのみを使用するRe2TALは、新しい最先端記録であるActivityNet-v1.3で37.01%平均mAP、THUMOS-14でtIoU=0.5でmAP 64.9%に達し、他のRGBのみの手法よりも優れている。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z) - Invertible Residual Network with Regularization for Effective Medical
Image Segmentation [2.76240219662896]
バックプロパゲーションを用いたニューラルネットワークのトレーニングにおいて、アクティベーションメモリフットプリントを大幅に削減するために、可逆ニューラルネットワークが適用されている。
可逆残存ネットワーク(部分可逆残存ネットワーク, Partially-InvRes)と完全可逆残存ネットワーク(Fully-InvRes)の2つのバージョンを提案する。
この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。
論文 参考訳(メタデータ) (2021-03-16T13:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。