論文の概要: ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation
- arxiv url: http://arxiv.org/abs/2412.04353v1
- Date: Thu, 05 Dec 2024 17:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:57.322453
- Title: ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation
- Title(参考訳): ActFusion:アクションセグメンテーションと予測のための統一拡散モデル
- Authors: Dayoung Gong, Suha Kwak, Minsu Cho,
- Abstract要約: 時間的アクションセグメンテーションと長期的アクション予測は、ビデオにおけるアクションの時間的分析のための一般的なビジョンタスクである。
本稿では,アクトフュージョンと呼ばれる統合拡散モデルを用いて,アクションセグメンテーションとアクション予測という2つの課題に取り組む。
我々は,映像フレームの後半部分を見えないものとして隠蔽し,学習可能なトークンをこれらのフレームに置き換えて,目に見えない未来を予測する,新たな予測マスク戦略を導入する。
- 参考スコア(独自算出の注目度): 66.8640112000444
- License:
- Abstract: Temporal action segmentation and long-term action anticipation are two popular vision tasks for the temporal analysis of actions in videos. Despite apparent relevance and potential complementarity, these two problems have been investigated as separate and distinct tasks. In this work, we tackle these two problems, action segmentation and action anticipation, jointly using a unified diffusion model dubbed ActFusion. The key idea to unification is to train the model to effectively handle both visible and invisible parts of the sequence in an integrated manner; the visible part is for temporal segmentation, and the invisible part is for future anticipation. To this end, we introduce a new anticipative masking strategy during training in which a late part of the video frames is masked as invisible, and learnable tokens replace these frames to learn to predict the invisible future. Experimental results demonstrate the bi-directional benefits between action segmentation and anticipation. ActFusion achieves the state-of-the-art performance across the standard benchmarks of 50 Salads, Breakfast, and GTEA, outperforming task-specific models in both of the two tasks with a single unified model through joint learning.
- Abstract(参考訳): 時間的アクションセグメンテーションと長期的アクション予測は、ビデオにおけるアクションの時間的分析のための2つの一般的なビジョンタスクである。
明らかな関連性と潜在的な相補性にもかかわらず、これらの2つの問題は別個のタスクとして研究されている。
本研究では,ActFusionと呼ばれる統合拡散モデルを用いて,アクションセグメンテーションとアクション予測という2つの課題に取り組む。
統合の鍵となる考え方は、シーケンスの可視部分と可視部分の両方を統合的に効果的に扱うようにモデルを訓練することである。
そこで本研究では,ビデオフレームの後半部分を見えないものとして隠蔽し,学習可能なトークンをこれらのフレームに置き換えて,目に見えない未来を予測する,新たな予測マスク方式を提案する。
実験結果から, アクションセグメンテーションと予測の双方向的メリットが示された。
ActFusionは50のサラダ、Breakfast、GTEAの標準ベンチマークで最先端のパフォーマンスを達成し、共同学習を通じて単一の統一モデルで2つのタスクでタスク固有のモデルを上回っます。
関連論文リスト
- DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Human Motion Diffusion as a Generative Prior [20.004837564647367]
拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
論文 参考訳(メタデータ) (2023-03-02T17:09:27Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - TTAN: Two-Stage Temporal Alignment Network for Few-shot Action
Recognition [29.95184808021684]
少数のサンプル(支援)を用いた新規なアクションクラス(クエリ)の認識を目的としたアクション認識
我々は,サポートサンプル間のミスアライメントを考慮に入れた,新しいマルチショットフュージョン戦略を考案した。
ベンチマークデータセットを用いた実験では,数発のアクション認識のための最先端性能を実現する上で,提案手法の可能性を示した。
論文 参考訳(メタデータ) (2021-07-10T07:22:49Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。