論文の概要: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2211.14053v2
- Date: Tue, 28 Mar 2023 08:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 19:18:02.807621
- Title: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- Title(参考訳): Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト
- Authors: Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem
- Abstract要約: 時間的行動ローカライゼーション(TAL)は、様々な期間と複雑な内容の行動を予測するために、長期的推論を必要とする。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングできる。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
- 参考スコア(独自算出の注目度): 65.33914980022303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) requires long-form reasoning to predict
actions of various durations and complex content. Given limited GPU memory,
training TAL end to end (i.e., from videos to predictions) on long videos is a
significant challenge. Most methods can only train on pre-extracted features
without optimizing them for the localization problem, consequently limiting
localization performance. In this work, to extend the potential in TAL
networks, we propose a novel end-to-end method Re2TAL, which rewires pretrained
video backbones for reversible TAL. Re2TAL builds a backbone with reversible
modules, where the input can be recovered from the output such that the bulky
intermediate activations can be cleared from memory during training. Instead of
designing one single type of reversible module, we propose a network rewiring
mechanism, to transform any module with a residual connection to a reversible
module without changing any parameters. This provides two benefits: (1) a large
variety of reversible networks are easily obtained from existing and even
future model designs, and (2) the reversible models require much less training
effort as they reuse the pre-trained parameters of their original
non-reversible versions. Re2TAL, only using the RGB modality, reaches 37.01%
average mAP on ActivityNet-v1.3, a new state-of-the-art record, and mAP 64.9%
at tIoU=0.5 on THUMOS-14, outperforming all other RGB-only methods.
- Abstract(参考訳): 時間的行動定位(tal)は、様々な持続時間と複雑な内容の行動を予測するために長い形式の推論を必要とする。
GPUメモリが限られているため、長いビデオでTALのエンドツーエンド(ビデオから予測まで)をトレーニングすることは大きな課題である。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。
本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。
Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。
我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。
これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。
RGBモードのみを使用するRe2TALは、新しい最先端記録であるActivityNet-v1.3で37.01%平均mAP、THUMOS-14でtIoU=0.5でmAP 64.9%に達し、他のRGBのみの手法よりも優れている。
関連論文リスト
- Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for
Memory-Efficient Finetuning [84.50003044711602]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - ResT V2: Simpler, Faster and Stronger [18.610152288982288]
本稿では,よりシンプルで高速で強力なマルチスケール視覚変換器であるResTv2を提案する。
我々は、ImageNet分類、COCO検出、ADE20KセマンティックセグメンテーションのResTv2を検証する。
実験結果から、提案されたResTv2は、最近の最先端のバックボーンよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-04-15T07:57:40Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z) - Invertible Residual Network with Regularization for Effective Medical
Image Segmentation [2.76240219662896]
バックプロパゲーションを用いたニューラルネットワークのトレーニングにおいて、アクティベーションメモリフットプリントを大幅に削減するために、可逆ニューラルネットワークが適用されている。
可逆残存ネットワーク(部分可逆残存ネットワーク, Partially-InvRes)と完全可逆残存ネットワーク(Fully-InvRes)の2つのバージョンを提案する。
この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。
論文 参考訳(メタデータ) (2021-03-16T13:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。