論文の概要: Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in
Temporal Action Localization Tasks
- arxiv url: http://arxiv.org/abs/2211.06023v1
- Date: Fri, 11 Nov 2022 06:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:33:49.357848
- Title: Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in
Temporal Action Localization Tasks
- Title(参考訳): 時間的行動局所化課題におけるタスク不一致解消のためのソフトランディング戦略
- Authors: Hyolim Kang, Hanjung Kim, Joungbin An, Minsu Cho, Seon Joo Kim
- Abstract要約: 我々は、事前訓練されたエンコーダと下流タスク間の転送可能性ギャップを埋めるためにSoLa戦略を導入する。
本手法は,タスクの不一致問題を計算効率で効果的に軽減する。
- 参考スコア(独自算出の注目度): 46.94537691205153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Localization (TAL) methods typically operate on top of
feature sequences from a frozen snippet encoder that is pretrained with the
Trimmed Action Classification (TAC) tasks, resulting in a task discrepancy
problem. While existing TAL methods mitigate this issue either by retraining
the encoder with a pretext task or by end-to-end fine-tuning, they commonly
require an overload of high memory and computation. In this work, we introduce
Soft-Landing (SoLa) strategy, an efficient yet effective framework to bridge
the transferability gap between the pretrained encoder and the downstream tasks
by incorporating a light-weight neural network, i.e., a SoLa module, on top of
the frozen encoder. We also propose an unsupervised training scheme for the
SoLa module; it learns with inter-frame Similarity Matching that uses the frame
interval as its supervisory signal, eliminating the need for temporal
annotations. Experimental evaluation on various benchmarks for downstream TAL
tasks shows that our method effectively alleviates the task discrepancy problem
with remarkable computational efficiency.
- Abstract(参考訳): 時間的行動局在(tal)法は、通常、tac(trimmed action classification)タスクで事前学習された凍結したスニペットエンコーダから特徴列上で動作し、タスクの不一致問題を引き起こす。
既存のTALメソッドは、プリテキストタスクでエンコーダを再トレーニングするか、エンドツーエンドの微調整によってこの問題を軽減するが、通常は高メモリと計算の過剰な負荷を必要とする。
本研究では,ソフトランディング(SoLa)戦略を導入し,凍結エンコーダ上に軽量ニューラルネットワーク,すなわちSoLaモジュールを組み込むことで,事前学習したエンコーダと下流タスク間の伝達可能性ギャップを埋める,効率的かつ効率的なフレームワークを提案する。
また,solaモジュールの教師なし学習方式を提案し,フレーム間隔を監督信号として用いるフレーム間類似性マッチングを用いて学習し,時間的アノテーションを不要とした。
ダウンストリーム TAL タスクに対する様々なベンチマーク実験により,本手法が計算効率に優れたタスク不一致問題を効果的に軽減することを示した。
関連論文リスト
- Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation [31.622109513774635]
本稿では,長編未編集ビデオに対するアクションセグメンテーションタスクに対する新しいアプローチを提案する。
グロモフ・ワッサーシュタイン問題に先立って時間的一貫性を符号化することにより、時間的に一貫したセグメンテーションをデコードすることができる。
本手法では,ビデオの時間的整合性を達成するための動作順序を知る必要はない。
論文 参考訳(メタデータ) (2024-04-01T22:53:47Z) - Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-23T12:53:51Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。