Fugu-MT 論文翻訳(概要): Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks

論文の概要: Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks

arxiv url: http://arxiv.org/abs/2211.06023v1
Date: Fri, 11 Nov 2022 06:27:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 16:33:49.357848
Title: Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks
Title（参考訳）: 時間的行動局所化課題におけるタスク不一致解消のためのソフトランディング戦略
Authors: Hyolim Kang, Hanjung Kim, Joungbin An, Minsu Cho, Seon Joo Kim
Abstract要約: 我々は、事前訓練されたエンコーダと下流タスク間の転送可能性ギャップを埋めるためにSoLa戦略を導入する。本手法は,タスクの不一致問題を計算効率で効果的に軽減する。
参考スコア（独自算出の注目度）: 46.94537691205153
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal Action Localization (TAL) methods typically operate on top of feature sequences from a frozen snippet encoder that is pretrained with the Trimmed Action Classification (TAC) tasks, resulting in a task discrepancy problem. While existing TAL methods mitigate this issue either by retraining the encoder with a pretext task or by end-to-end fine-tuning, they commonly require an overload of high memory and computation. In this work, we introduce Soft-Landing (SoLa) strategy, an efficient yet effective framework to bridge the transferability gap between the pretrained encoder and the downstream tasks by incorporating a light-weight neural network, i.e., a SoLa module, on top of the frozen encoder. We also propose an unsupervised training scheme for the SoLa module; it learns with inter-frame Similarity Matching that uses the frame interval as its supervisory signal, eliminating the need for temporal annotations. Experimental evaluation on various benchmarks for downstream TAL tasks shows that our method effectively alleviates the task discrepancy problem with remarkable computational efficiency.
Abstract（参考訳）: 時間的行動局在(tal)法は、通常、tac(trimmed action classification)タスクで事前学習された凍結したスニペットエンコーダから特徴列上で動作し、タスクの不一致問題を引き起こす。既存のTALメソッドは、プリテキストタスクでエンコーダを再トレーニングするか、エンドツーエンドの微調整によってこの問題を軽減するが、通常は高メモリと計算の過剰な負荷を必要とする。本研究では,ソフトランディング(SoLa)戦略を導入し,凍結エンコーダ上に軽量ニューラルネットワーク,すなわちSoLaモジュールを組み込むことで,事前学習したエンコーダと下流タスク間の伝達可能性ギャップを埋める,効率的かつ効率的なフレームワークを提案する。また,solaモジュールの教師なし学習方式を提案し,フレーム間隔を監督信号として用いるフレーム間類似性マッチングを用いて学習し,時間的アノテーションを不要とした。ダウンストリーム TAL タスクに対する様々なベンチマーク実験により,本手法が計算効率に優れたタスク不一致問題を効果的に軽減することを示した。

関連論文リスト

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。 RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文参考訳（メタデータ） (2025-10-30T11:15:23Z)
Boosting Open Set Recognition Performance through Modulated Representation Learning [0.0]
オープンセット認識問題は、トレーニングクラスの一部ではない新しいセマンティッククラスからテストサンプルを識別することを目的としている。既存のOSR法では、損失関数を適用する前に、ロジットに一定のスケーリング係数(温度)を使用する。本稿では,提案した一連の温度スケジュールを用いて,温度変調表現学習を可能にすることで,この問題に対処する。
論文参考訳（メタデータ） (2025-05-23T17:47:20Z)
Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文参考訳（メタデータ） (2024-08-04T13:23:18Z)
BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文参考訳（メタデータ） (2024-06-14T14:49:12Z)
Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation [31.622109513774635]
本稿では,長編未編集ビデオに対するアクションセグメンテーションタスクに対する新しいアプローチを提案する。グロモフ・ワッサーシュタイン問題に先立って時間的一貫性を符号化することにより、時間的に一貫したセグメンテーションをデコードすることができる。本手法では,ビデオの時間的整合性を達成するための動作順序を知る必要はない。
論文参考訳（メタデータ） (2024-04-01T22:53:47Z)
Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-23T12:53:51Z)
Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文参考訳（メタデータ） (2023-12-25T18:51:23Z)
ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。 ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文参考訳（メタデータ） (2023-01-30T02:27:02Z)
Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文参考訳（メタデータ） (2022-12-16T02:43:52Z)
ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文参考訳（メタデータ） (2022-07-14T17:46:37Z)
Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文参考訳（メタデータ） (2021-03-28T22:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。