論文の概要: End-to-End Streaming Video Temporal Action Segmentation with Reinforce
Learning
- arxiv url: http://arxiv.org/abs/2309.15683v1
- Date: Wed, 27 Sep 2023 14:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:24:54.773029
- Title: End-to-End Streaming Video Temporal Action Segmentation with Reinforce
Learning
- Title(参考訳): 強化学習を用いたエンド・ツー・エンドストリーミングビデオテンポラルアクションセグメンテーション
- Authors: Wujun Wen, Jinrong Zhang, Shenglan Liu, Yunheng Li, Qifeng Li, Lin
Feng
- Abstract要約: ビデオからのテンポラルアクションは、複数のアクションクラスを持つ長いビデオのためのフレーム認識タスクである。
本稿では,Reinforce Learning (SVTAS-RL) を用いたエンドツーエンドのストリーミングビデオ時間行動を提案する。
- 参考スコア(独自算出の注目度): 5.92039287997741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Segmentation (TAS) from video is a kind of frame recognition
task for long video with multiple action classes. As an video understanding
task for long videos, current methods typically combine multi-modality action
recognition models with temporal models to convert feature sequences to label
sequences. This approach can only be applied to offline scenarios, which
severely limits the TAS application. Therefore, this paper proposes an
end-to-end Streaming Video Temporal Action Segmentation with Reinforce Learning
(SVTAS-RL). The end-to-end SVTAS which regard TAS as an action segment
clustering task can expand the application scenarios of TAS; and RL is used to
alleviate the problem of inconsistent optimization objective and direction.
Through extensive experiments, the SVTAS-RL model achieves a competitive
performance to the state-of-the-art model of TAS on multiple datasets, and
shows greater advantages on the ultra-long video dataset EGTEA. This indicates
that our method can replace all current TAS models end-to-end and SVTAS-RL is
more suitable for long video TAS. Code is availabel at
https://github.com/Thinksky5124/SVTAS.
- Abstract(参考訳): ビデオからのテンポラリアクションセグメンテーション(tas)は、複数のアクションクラスを持つロングビデオのフレーム認識タスクの一種である。
長いビデオの映像理解タスクとして、現在の手法は、多モードのアクション認識モデルと時間モデルを組み合わせて特徴系列をラベルシーケンスに変換する。
このアプローチはオフラインのシナリオにのみ適用できるため、TASアプリケーションは非常に制限される。
そこで本研究では,SVTAS-RL(Reinforce Learning)を用いたエンドツーエンドのストリーミングビデオテンポラルアクションセグメンテーションを提案する。
TASをアクションセグメントクラスタリングタスクとみなすエンドツーエンドのSVTASは、TASのアプリケーションシナリオを拡張し、RLは一貫性のない最適化目標と方向性の問題を軽減するために使用される。
SVTAS-RLモデルは、複数のデータセット上でのTASの最先端モデルと競合する性能を達成し、超長ビデオデータセットEGTEAにより大きな利点を示す。
このことから,本手法は,従来のTASモデルをすべてエンドツーエンドに置き換えることが可能であり,SVTAS-RLの方が長時間ビデオTASに適していることが示唆された。
コードはhttps://github.com/Thinksky5124/SVTASで利用可能である。
関連論文リスト
- Dependency-Aware CAV Task Scheduling via Diffusion-Based Reinforcement Learning [12.504232513881828]
動的無人航空機支援型コネクテッド自動運転車(CAV)のための新しい依存性を考慮したタスクスケジューリング手法を提案する。
平均タスク完了時間を最小化することを目的として,共同スケジューリング優先度とサブタスク割り当て最適化問題を定式化する。
本稿では,Synthetic DDQNをベースとしたSubtasks Schedulingという拡散型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-27T11:07:31Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Streaming Video Temporal Action Segmentation In Real Time [2.8728707559692475]
本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。
我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
論文 参考訳(メタデータ) (2022-09-28T03:27:37Z) - An Efficient Framework for Few-shot Skeleton-based Temporal Action
Segmentation [6.610414185789651]
テンポラルアクションセグメンテーション(TAS)は、長いアントリムされたアクションシーケンスのアクションを分類し、特定することを目的としている。
本研究では,データ拡張法と改良モデルを含む,数発の骨格型TASの効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T14:08:37Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。