論文の概要: End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning
- arxiv url: http://arxiv.org/abs/2309.15683v2
- Date: Thu, 23 May 2024 09:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:52:56.235649
- Title: End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning
- Title(参考訳): 強化学習を用いたエンド・ツー・エンドストリーミング映像の時間的動作分割
- Authors: Jinrong Zhang, Wujun Wen, Shenglan Liu, Yunheng Li, Qifeng Li, Lin Feng,
- Abstract要約: 我々は、強化学習(SVTAS-RL)を用いたエンド・ツー・エンドのストリーミングビデオ時間的動作分割モデルを提案する。
SVTAS-RLモデルは既存のSTASモデルを大幅に上回り、同じ評価基準の下で複数のデータセット上で最先端のTASモデルと競合する性能を達成する。
- 参考スコア(独自算出の注目度): 5.587301322663445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The streaming temporal action segmentation (STAS) task, a supplementary task of temporal action segmentation (TAS), has not received adequate attention in the field of video understanding. Existing TAS methods are constrained to offline scenarios due to their heavy reliance on multimodal features and complete contextual information. The STAS task requires the model to classify each frame of the entire untrimmed video sequence clip by clip in time, thereby extending the applicability of TAS methods to online scenarios. However, directly applying existing TAS methods to SATS tasks results in significantly poor segmentation outcomes. In this paper, we thoroughly analyze the fundamental differences between STAS tasks and TAS tasks, attributing the severe performance degradation when transferring models to model bias and optimization dilemmas. We introduce an end-to-end streaming video temporal action segmentation model with reinforcement learning (SVTAS-RL). The end-to-end modeling method mitigates the modeling bias introduced by the change in task nature and enhances the feasibility of online solutions. Reinforcement learning is utilized to alleviate the optimization dilemma. Through extensive experiments, the SVTAS-RL model significantly outperforms existing STAS models and achieves competitive performance to the state-of-the-art TAS model on multiple datasets under the same evaluation criteria, demonstrating notable advantages on the ultra-long video dataset EGTEA. Code is available at https://github.com/Thinksky5124/SVTAS.
- Abstract(参考訳): 時間的動作分割(TAS)の補足的タスクであるSTAS(Stream temporal Action segmentation)タスクは,ビデオ理解の分野ではあまり注目されていない。
既存のTASメソッドは、マルチモーダル機能と完全なコンテキスト情報に依存するため、オフラインシナリオに制約される。
STASタスクでは、未トリミングされたビデオシーケンスクリップのフレームを時間単位で分類し、TASメソッドの適用性をオンラインシナリオに拡張する必要がある。
しかし、SATSタスクに既存のTASメソッドを直接適用すると、セグメンテーションの結果は著しく劣る。
本稿では,STASタスクとTASタスクの基本的な違いを徹底的に解析し,モデルバイアスと最適化ジレンマへのモデル転送時の性能劣化の原因となる。
本稿では、強化学習(SVTAS-RL)を用いた、エンドツーエンドのストリーミングビデオ時間的アクションセグメンテーションモデルを提案する。
エンド・ツー・エンドのモデリング手法は、タスクの性質の変化によって引き起こされるモデリングバイアスを緩和し、オンラインソリューションの実現可能性を高める。
強化学習は最適化ジレンマを軽減するために利用される。
SVTAS-RLモデルは、大規模な実験を通じて既存のSTASモデルを大幅に上回り、同じ評価基準の下で複数のデータセット上で最先端のTASモデルと競合する性能を達成し、超長ビデオデータセットEGTEAに顕著な優位性を示す。
コードはhttps://github.com/Thinksky5124/SVTASで入手できる。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Streaming Video Temporal Action Segmentation In Real Time [2.8728707559692475]
本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。
我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
論文 参考訳(メタデータ) (2022-09-28T03:27:37Z) - An Efficient Framework for Few-shot Skeleton-based Temporal Action
Segmentation [6.610414185789651]
テンポラルアクションセグメンテーション(TAS)は、長いアントリムされたアクションシーケンスのアクションを分類し、特定することを目的としている。
本研究では,データ拡張法と改良モデルを含む,数発の骨格型TASの効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T14:08:37Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。