Fugu-MT 論文翻訳(概要): Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

論文の概要: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

arxiv url: http://arxiv.org/abs/2211.14053v2
Date: Tue, 28 Mar 2023 08:48:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 19:18:02.807621
Title: Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization
Title（参考訳）: Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト
Authors: Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem
Abstract要約: 時間的行動ローカライゼーション(TAL)は、様々な期間と複雑な内容の行動を予測するために、長期的推論を必要とする。ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングできる。本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
参考スコア（独自算出の注目度）: 65.33914980022303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal action localization (TAL) requires long-form reasoning to predict actions of various durations and complex content. Given limited GPU memory, training TAL end to end (i.e., from videos to predictions) on long videos is a significant challenge. Most methods can only train on pre-extracted features without optimizing them for the localization problem, consequently limiting localization performance. In this work, to extend the potential in TAL networks, we propose a novel end-to-end method Re2TAL, which rewires pretrained video backbones for reversible TAL. Re2TAL builds a backbone with reversible modules, where the input can be recovered from the output such that the bulky intermediate activations can be cleared from memory during training. Instead of designing one single type of reversible module, we propose a network rewiring mechanism, to transform any module with a residual connection to a reversible module without changing any parameters. This provides two benefits: (1) a large variety of reversible networks are easily obtained from existing and even future model designs, and (2) the reversible models require much less training effort as they reuse the pre-trained parameters of their original non-reversible versions. Re2TAL, only using the RGB modality, reaches 37.01% average mAP on ActivityNet-v1.3, a new state-of-the-art record, and mAP 64.9% at tIoU=0.5 on THUMOS-14, outperforming all other RGB-only methods.
Abstract（参考訳）: 時間的行動定位(tal)は、様々な持続時間と複雑な内容の行動を予測するために長い形式の推論を必要とする。 GPUメモリが限られているため、長いビデオでTALのエンドツーエンド(ビデオから予測まで)をトレーニングすることは大きな課題である。ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。 Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。 RGBモードのみを使用するRe2TALは、新しい最先端記録であるActivityNet-v1.3で37.01%平均mAP、THUMOS-14でtIoU=0.5でmAP 64.9%に達し、他のRGBのみの手法よりも優れている。

関連論文リスト

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-19T09:54:46Z)
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。 Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文参考訳（メタデータ） (2024-10-28T02:15:45Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文参考訳（メタデータ） (2024-03-30T08:05:00Z)
Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。 Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。 Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文参考訳（メタデータ） (2024-01-08T18:59:31Z)
PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs [22.557682089926004]
パラメータの小さなサブセットを更新すれば、刈り込み後の回復や性能向上に十分であることを示す。標準のLoRAとは異なり、スパシティを損なうことなくアダプタを再びマージできる2つの新しいLoRA変種を導入する。
論文参考訳（メタデータ） (2023-12-23T11:45:22Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。 Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文参考訳（メタデータ） (2023-04-28T12:19:47Z)
Deep Neural Networks are Surprisingly Reversible: A Baseline for Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。 ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文参考訳（メタデータ） (2021-07-13T18:01:43Z)
Invertible Residual Network with Regularization for Effective Medical Image Segmentation [2.76240219662896]
バックプロパゲーションを用いたニューラルネットワークのトレーニングにおいて、アクティベーションメモリフットプリントを大幅に削減するために、可逆ニューラルネットワークが適用されている。可逆残存ネットワーク(部分可逆残存ネットワーク, Partially-InvRes)と完全可逆残存ネットワーク(Fully-InvRes)の2つのバージョンを提案する。この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。
論文参考訳（メタデータ） (2021-03-16T13:19:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。