論文の概要: ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning
in Instructional Videos
- arxiv url: http://arxiv.org/abs/2403.08591v1
- Date: Wed, 13 Mar 2024 14:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:12.789863
- Title: ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning
in Instructional Videos
- Title(参考訳): Action Diffusion: 手続き計画のための行動認識拡散モデル
インストラクショナル・ビデオで
- Authors: Lei Shi, Paul B\"urkner, Andreas Bulling
- Abstract要約: ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。
本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
- 参考スコア(独自算出の注目度): 11.4414301678724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present ActionDiffusion -- a novel diffusion model for procedure planning
in instructional videos that is the first to take temporal inter-dependencies
between actions into account in a diffusion model for procedure planning. This
approach is in stark contrast to existing methods that fail to exploit the rich
information content available in the particular order in which actions are
performed. Our method unifies the learning of temporal dependencies between
actions and denoising of the action plan in the diffusion process by projecting
the action information into the noise space. This is achieved 1) by adding
action embeddings in the noise masks in the noise-adding phase and 2) by
introducing an attention mechanism in the noise prediction network to learn the
correlations between different action steps. We report extensive experiments on
three instructional video benchmark datasets (CrossTask, Coin, and NIV) and
show that our method outperforms previous state-of-the-art methods on all
metrics on CrossTask and NIV and all metrics except accuracy on Coin dataset.
We show that by adding action embeddings into the noise mask the diffusion
model can better learn action temporal dependencies and increase the
performances on procedure planning.
- Abstract(参考訳): 本稿では,プロシージャプランニングのための拡散モデルとして,プロシージャプランニングのための新しい拡散モデルであるActionDiffusionを提案する。
このアプローチは、アクションを実行する特定の順序で利用可能な豊富な情報コンテンツを活用できない既存の方法とは対照的である。
本手法は,ノイズ空間に動作情報を投影することにより,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
これは達成される
1)ノイズ付加相におけるノイズマスクにアクション埋め込みを加えることにより、
2) ノイズ予測ネットワークに注意機構を導入し, 異なる動作ステップ間の相関関係を学習する。
提案手法はCrossTask,Coin,NIVの3つのビデオベンチマークデータセット(CrossTask,Coin,NIV)について広範な実験を行い,CrossTaskおよびNIVのすべてのメトリクスおよびCoinデータセットの精度以外のすべてのメトリクスにおいて,従来の最先端手法よりも優れていたことを示す。
ノイズマスクにアクション埋め込みを追加することで、拡散モデルにより、アクションの時間依存性を学習し、プロシージャ計画におけるパフォーマンスを向上させることができることを示す。
関連論文リスト
- Intention-aware Denoising Diffusion Model for Trajectory Prediction [14.524496560759555]
軌道予測は、特に衝突回避システムにおいて、自律運転において不可欠な要素である。
本稿では,拡散モデルを用いて将来の軌道の分布を生成することを提案する。
Intention-aware denoising Diffusion Model (IDM)を提案する。
提案手法は,SDDデータセットでは13.83ピクセル,ETH/UCYデータセットでは0.36メートルのFDEで,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-03-14T09:05:25Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - Event-Guided Procedure Planning from Instructional Videos with Text
Supervision [31.82121743586165]
本研究は,テキスト管理による指導ビデオからの手順計画の課題に焦点をあてる。
この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。
本稿では,まず観測された状態から事象を推定し,その状態と予測された事象の両方に基づいて行動計画を行う,新しいイベント誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-17T09:43:28Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - PDPP:Projected Diffusion for Procedure Planning in Instructional Videos [30.637651835289635]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
この問題は、非構造化の実生活ビデオの現在の視覚的観察から、ゴール指向のプランを作成することを目的としている。
論文 参考訳(メタデータ) (2023-03-26T10:50:16Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。