論文の概要: Diffusion Action Segmentation
- arxiv url: http://arxiv.org/abs/2303.17959v2
- Date: Sat, 12 Aug 2023 02:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 21:56:42.715849
- Title: Diffusion Action Segmentation
- Title(参考訳): 拡散動作セグメンテーション
- Authors: Daochang Liu, Qiyue Li, AnhDung Dinh, Tingting Jiang, Mubarak Shah,
Chang Xu
- Abstract要約: 本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
- 参考スコア(独自算出の注目度): 63.061058214427085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation is crucial for understanding long-form videos.
Previous works on this task commonly adopt an iterative refinement paradigm by
using multi-stage models. We propose a novel framework via denoising diffusion
models, which nonetheless shares the same inherent spirit of such iterative
refinement. In this framework, action predictions are iteratively generated
from random noise with input video features as conditions. To enhance the
modeling of three striking characteristics of human actions, including the
position prior, the boundary ambiguity, and the relational dependency, we
devise a unified masking strategy for the conditioning inputs in our framework.
Extensive experiments on three benchmark datasets, i.e., GTEA, 50Salads, and
Breakfast, are performed and the proposed method achieves superior or
comparable results to state-of-the-art methods, showing the effectiveness of a
generative approach for action segmentation.
- Abstract(参考訳): 時間的アクションセグメンテーションは、長い形式のビデオを理解するのに不可欠である。
このタスクの以前の作業では、多段階モデルを用いて反復的リファインメントパラダイムを一般的に採用していた。
我々は,そのような反復的改良の持つ本質的な精神を共有した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力映像特徴を条件としてランダムノイズから行動予測を反復的に生成する。
人間の行動における3つの印象的特徴のモデル化を, 先行位置, 境界曖昧性, 関係依存性などにより強化するため, 本フレームワークにおける条件付入力の統一マスキング戦略を考案する。
3つのベンチマークデータセット、すなわちgtea、50salads、朝食に関する広範囲な実験を行い、提案手法は最先端の手法に匹敵する結果を得ることができ、アクションセグメンテーションに対する生成的アプローチの有効性を示す。
関連論文リスト
- Discrete Modeling via Boundary Conditional Diffusion Processes [29.95155303262501]
従来のアプローチは、離散データと継続的モデリングの相違に悩まされてきた。
本稿では,まず境界を先行分布として推定する2段階の前進過程を提案する。
次に前方軌道を再スケールして境界条件拡散モデルを構築する。
論文 参考訳(メタデータ) (2024-10-29T09:42:42Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Leveraging triplet loss for unsupervised action segmentation [0.0]
本稿では,アクションセグメンテーションタスクに適したアクション表現を,単一入力ビデオ自体から学習する,完全に教師なしのフレームワークを提案する。
本手法は,三重項損失が類似度分布に作用する浅層ネットワークに根ざした深部距離学習手法である。
このような状況下では、既存の教師なしアプローチと比較して、学習された行動表現の時間的境界を高い品質で回復することに成功した。
論文 参考訳(メタデータ) (2023-04-13T11:10:16Z) - Turning to a Teacher for Timestamp Supervised Temporal Action
Segmentation [27.735478880660164]
本稿では,時間スタンプによる時間的動作分割のための新しいフレームワークを提案する。
本稿では,モデル最適化のプロセスの安定化を支援するために,セグメンテーションモデルに平行な教師モデルを提案する。
提案手法は最先端の手法より優れており,アノテーションコストがはるかに低い完全教師付き手法に対してコンパロブルに機能する。
論文 参考訳(メタデータ) (2022-07-02T02:00:55Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。