論文の概要: End-to-End Streaming Video Temporal Action Segmentation with Reinforce
Learning
- arxiv url: http://arxiv.org/abs/2309.15683v1
- Date: Wed, 27 Sep 2023 14:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:24:54.773029
- Title: End-to-End Streaming Video Temporal Action Segmentation with Reinforce
Learning
- Title(参考訳): 強化学習を用いたエンド・ツー・エンドストリーミングビデオテンポラルアクションセグメンテーション
- Authors: Wujun Wen, Jinrong Zhang, Shenglan Liu, Yunheng Li, Qifeng Li, Lin
Feng
- Abstract要約: ビデオからのテンポラルアクションは、複数のアクションクラスを持つ長いビデオのためのフレーム認識タスクである。
本稿では,Reinforce Learning (SVTAS-RL) を用いたエンドツーエンドのストリーミングビデオ時間行動を提案する。
- 参考スコア(独自算出の注目度): 5.92039287997741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Segmentation (TAS) from video is a kind of frame recognition
task for long video with multiple action classes. As an video understanding
task for long videos, current methods typically combine multi-modality action
recognition models with temporal models to convert feature sequences to label
sequences. This approach can only be applied to offline scenarios, which
severely limits the TAS application. Therefore, this paper proposes an
end-to-end Streaming Video Temporal Action Segmentation with Reinforce Learning
(SVTAS-RL). The end-to-end SVTAS which regard TAS as an action segment
clustering task can expand the application scenarios of TAS; and RL is used to
alleviate the problem of inconsistent optimization objective and direction.
Through extensive experiments, the SVTAS-RL model achieves a competitive
performance to the state-of-the-art model of TAS on multiple datasets, and
shows greater advantages on the ultra-long video dataset EGTEA. This indicates
that our method can replace all current TAS models end-to-end and SVTAS-RL is
more suitable for long video TAS. Code is availabel at
https://github.com/Thinksky5124/SVTAS.
- Abstract(参考訳): ビデオからのテンポラリアクションセグメンテーション(tas)は、複数のアクションクラスを持つロングビデオのフレーム認識タスクの一種である。
長いビデオの映像理解タスクとして、現在の手法は、多モードのアクション認識モデルと時間モデルを組み合わせて特徴系列をラベルシーケンスに変換する。
このアプローチはオフラインのシナリオにのみ適用できるため、TASアプリケーションは非常に制限される。
そこで本研究では,SVTAS-RL(Reinforce Learning)を用いたエンドツーエンドのストリーミングビデオテンポラルアクションセグメンテーションを提案する。
TASをアクションセグメントクラスタリングタスクとみなすエンドツーエンドのSVTASは、TASのアプリケーションシナリオを拡張し、RLは一貫性のない最適化目標と方向性の問題を軽減するために使用される。
SVTAS-RLモデルは、複数のデータセット上でのTASの最先端モデルと競合する性能を達成し、超長ビデオデータセットEGTEAにより大きな利点を示す。
このことから,本手法は,従来のTASモデルをすべてエンドツーエンドに置き換えることが可能であり,SVTAS-RLの方が長時間ビデオTASに適していることが示唆された。
コードはhttps://github.com/Thinksky5124/SVTASで利用可能である。
関連論文リスト
- TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - TarViS: A Unified Approach for Target-based Video Segmentation [115.5770357189209]
TarViSは、ビデオで任意に定義された「ターゲット」の集合をセグメント化する必要があるあらゆるタスクに適用できる、新しく統合されたネットワークアーキテクチャである。
我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。
その有効性を示すために、TarViSをビデオインスタンス(VIS)、ビデオパノプティクス(VPS)、ビデオオブジェクト(VOS)、ポイントインテンプラ誘導トラッキング(PET)の4つのタスクに適用する。
論文 参考訳(メタデータ) (2023-01-06T18:59:52Z) - Streaming Video Temporal Action Segmentation In Real Time [2.8728707559692475]
本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。
我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
論文 参考訳(メタデータ) (2022-09-28T03:27:37Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。