論文の概要: Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in
Temporal Action Localization Tasks
- arxiv url: http://arxiv.org/abs/2211.06023v1
- Date: Fri, 11 Nov 2022 06:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:33:49.357848
- Title: Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in
Temporal Action Localization Tasks
- Title(参考訳): 時間的行動局所化課題におけるタスク不一致解消のためのソフトランディング戦略
- Authors: Hyolim Kang, Hanjung Kim, Joungbin An, Minsu Cho, Seon Joo Kim
- Abstract要約: 我々は、事前訓練されたエンコーダと下流タスク間の転送可能性ギャップを埋めるためにSoLa戦略を導入する。
本手法は,タスクの不一致問題を計算効率で効果的に軽減する。
- 参考スコア(独自算出の注目度): 46.94537691205153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Localization (TAL) methods typically operate on top of
feature sequences from a frozen snippet encoder that is pretrained with the
Trimmed Action Classification (TAC) tasks, resulting in a task discrepancy
problem. While existing TAL methods mitigate this issue either by retraining
the encoder with a pretext task or by end-to-end fine-tuning, they commonly
require an overload of high memory and computation. In this work, we introduce
Soft-Landing (SoLa) strategy, an efficient yet effective framework to bridge
the transferability gap between the pretrained encoder and the downstream tasks
by incorporating a light-weight neural network, i.e., a SoLa module, on top of
the frozen encoder. We also propose an unsupervised training scheme for the
SoLa module; it learns with inter-frame Similarity Matching that uses the frame
interval as its supervisory signal, eliminating the need for temporal
annotations. Experimental evaluation on various benchmarks for downstream TAL
tasks shows that our method effectively alleviates the task discrepancy problem
with remarkable computational efficiency.
- Abstract(参考訳): 時間的行動局在(tal)法は、通常、tac(trimmed action classification)タスクで事前学習された凍結したスニペットエンコーダから特徴列上で動作し、タスクの不一致問題を引き起こす。
既存のTALメソッドは、プリテキストタスクでエンコーダを再トレーニングするか、エンドツーエンドの微調整によってこの問題を軽減するが、通常は高メモリと計算の過剰な負荷を必要とする。
本研究では,ソフトランディング(SoLa)戦略を導入し,凍結エンコーダ上に軽量ニューラルネットワーク,すなわちSoLaモジュールを組み込むことで,事前学習したエンコーダと下流タスク間の伝達可能性ギャップを埋める,効率的かつ効率的なフレームワークを提案する。
また,solaモジュールの教師なし学習方式を提案し,フレーム間隔を監督信号として用いるフレーム間類似性マッチングを用いて学習し,時間的アノテーションを不要とした。
ダウンストリーム TAL タスクに対する様々なベンチマーク実験により,本手法が計算効率に優れたタスク不一致問題を効果的に軽減することを示した。
関連論文リスト
- Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Task Arithmetic with LoRA for Continual Learning [0.0]
低ランク適応とタスク算術を用いて視覚モデルを継続的に訓練する新しい手法を提案する。
クラス毎に10個のサンプルを小さなメモリで支援すると,本手法はフルセットファインタニングに近い性能が得られる。
論文 参考訳(メタデータ) (2023-11-04T15:12:24Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。