論文の概要: Coherent Temporal Synthesis for Incremental Action Segmentation
- arxiv url: http://arxiv.org/abs/2403.06102v1
- Date: Sun, 10 Mar 2024 06:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 08:30:40.402523
- Title: Coherent Temporal Synthesis for Incremental Action Segmentation
- Title(参考訳): インクリメンタルアクションセグメンテーションのためのコヒーレントな時間合成
- Authors: Guodong Ding, Hans Golong and Angela Yao
- Abstract要約: 本稿では、インクリメンタルなアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。
本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現するテンポラリ・コヒーレント・アクション・モデルを提案する。
Breakfastデータセットの10タスクのインクリメンタルセットアップでは,ベースラインと比較して最大22%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 42.46228728930902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data replay is a successful incremental learning technique for images. It
prevents catastrophic forgetting by keeping a reservoir of previous data,
original or synthesized, to ensure the model retains past knowledge while
adapting to novel concepts. However, its application in the video domain is
rudimentary, as it simply stores frame exemplars for action recognition. This
paper presents the first exploration of video data replay techniques for
incremental action segmentation, focusing on action temporal modeling. We
propose a Temporally Coherent Action (TCA) model, which represents actions
using a generative model instead of storing individual frames. The integration
of a conditioning variable that captures temporal coherence allows our model to
understand the evolution of action features over time. Therefore, action
segments generated by TCA for replay are diverse and temporally coherent. In a
10-task incremental setup on the Breakfast dataset, our approach achieves
significant increases in accuracy for up to 22% compared to the baselines.
- Abstract(参考訳): データ再生は画像の漸進的な学習技術として成功している。
モデルが新しい概念に適応しながら過去の知識を維持するために、以前のデータ、オリジナルまたは合成されたデータを保存することで破滅的な忘れを防止する。
しかし、ビデオ領域での応用は初歩的であり、アクション認識のためのフレーム例を単に格納するだけである。
本稿では,アクション時間モデルに着目したインクリメンタルアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。
本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現する,時間的コヒーレントアクション(TCA)モデルを提案する。
時間的コヒーレンスを捉える条件変数の統合により、我々のモデルは時間とともに行動特徴の進化を理解することができる。
したがって、再生用tcaによって生成される動作セグメントは多様で、時間的にコヒーレントである。
朝食データセット上の10タスクのインクリメンタルセットアップでは,ベースラインと比較して,最大22%の精度向上を実現している。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - FCA-RAC: First Cycle Annotated Repetitive Action Counting [30.253568218869237]
我々は、FCA-RAC(First Cycle Annotated Repetitive Action Counting)と呼ばれるフレームワークを提案する。
FCA-RACは、(1)トレーニングビデオに、第1のアクションサイクルの開始と終了と、合計のアクションカウントとをアノテートするラベリング技術を含む。
この手法により、モデルが初期行動サイクルとその後の行動との相関を捉えることができる。
論文 参考訳(メタデータ) (2024-06-18T01:12:43Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Hand Guided High Resolution Feature Enhancement for Fine-Grained Atomic
Action Segmentation within Complex Human Assemblies [0.0]
本稿では,手指位置案内高解像度機能強化モデルを提案する。
また,実時間動作セグメンテーションのためのオフライン訓練行動認識モデルを簡易かつ効果的に展開する手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T16:19:22Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution [9.902223920743872]
高時間分解能でラベル付けされた微妙な短時間動作を含む新しい行動認識ベンチマークを導入する。
セグメント化に基づく現在の最先端モデルでは,これらのデータに適用した場合,ノイズの予測が可能であることを示す。
本稿では,音声認識技術に触発された高精度な行動識別手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T21:06:36Z) - Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文 参考訳(メタデータ) (2021-08-12T10:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。