論文の概要: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2211.14053v1
- Date: Fri, 25 Nov 2022 12:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:33:50.039078
- Title: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization
- Title(参考訳): Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト
- Authors: Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem
- Abstract要約: 時間的行動ローカライゼーション(TAL)は、様々な長さと複雑な内容の行動を予測するために、長期的推論を必要とする。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
Re2TALの平均mAPは37.01%に達し、ActivityNet-v1.3では最新記録となり、THUMOS-14ではtIoU=0.5でmAP 64.9%となった。
- 参考スコア(独自算出の注目度): 65.33914980022303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) requires long-form reasoning to predict
actions of various lengths and complex content. Given limited GPU memory,
training TAL end-to-end on such long-form videos (i.e., from videos to
predictions) is a significant challenge. Most methods can only train on
pre-extracted features without optimizing them for the localization problem,
consequently limiting localization performance. In this work, to extend the
potential in TAL networks, we propose a novel end-to-end method Re2TAL, which
rewires pretrained video backbones for reversible TAL. Re2TAL builds a backbone
with reversible modules, where the input can be recovered from the output such
that the bulky intermediate activations can be cleared from memory during
training. Instead of designing one single type of reversible module, we propose
a network rewiring mechanism, to transform any module with a residual
connection to a reversible module without changing any parameters. This
provides two benefits: (1) a large variety of reversible networks are easily
obtained from existing and even future model designs, and (2) the reversible
models require much less training effort as they reuse the pre-trained
parameters of their original non-reversible versions. Re2TAL reaches 37.01%
average mAP, a new state-of-the-art record on ActivityNet-v1.3, and mAP 64.9%
at tIoU=0.5 on THUMOS-14 without using optimal flow.
- Abstract(参考訳): 時間的行動定位(tal)は、様々な長さと複雑な内容の行動を予測するのに長い形式の推論を必要とする。
限られたGPUメモリを考えると、このような長ビデオ(ビデオから予測まで)でTALのエンドツーエンドをトレーニングすることは大きな課題である。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。
本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。
Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。
我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。
これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。
Re2TALの平均mAPは37.01%に達し、ActivityNet-v1.3では最新記録となり、THUMOS-14ではtIoU=0.5で64.9%となった。
関連論文リスト
- Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for
Memory-Efficient Finetuning [84.50003044711602]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - ResT V2: Simpler, Faster and Stronger [18.610152288982288]
本稿では,よりシンプルで高速で強力なマルチスケール視覚変換器であるResTv2を提案する。
我々は、ImageNet分類、COCO検出、ADE20KセマンティックセグメンテーションのResTv2を検証する。
実験結果から、提案されたResTv2は、最近の最先端のバックボーンよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-04-15T07:57:40Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z) - Invertible Residual Network with Regularization for Effective Medical
Image Segmentation [2.76240219662896]
バックプロパゲーションを用いたニューラルネットワークのトレーニングにおいて、アクティベーションメモリフットプリントを大幅に削減するために、可逆ニューラルネットワークが適用されている。
可逆残存ネットワーク(部分可逆残存ネットワーク, Partially-InvRes)と完全可逆残存ネットワーク(Fully-InvRes)の2つのバージョンを提案する。
この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。
論文 参考訳(メタデータ) (2021-03-16T13:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。