論文の概要: Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos
- arxiv url: http://arxiv.org/abs/2507.03393v1
- Date: Fri, 04 Jul 2025 08:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.716346
- Title: Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos
- Title(参考訳): 授業映像におけるプロシージャ計画のための仮設仮設仮設補間拡散
- Authors: Yufan Zhou, Zhaobo Qi, Lingshuai Lin, Junqi Jing, Tingting Chai, Beichen Zhang, Shuhui Wang, Weigang Zhang,
- Abstract要約: 本稿では,授業ビデオにおけるプロシージャ計画の課題に対処し,開始と終了の視覚的観察から協調的かつタスクに沿ったアクションシーケンスを生成することを目的とする。
これまでの研究は主に、観察された状態と観察されていない行動の間のギャップを埋めるためにテキストレベルの監督に依存してきたが、行動間の複雑な時間的関係を捉えるのに苦労した。
本研究では,拡散モデル内に潜時空間時間モジュールを導入した仮設仮設時間補間拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 32.71627274876863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenge of procedure planning in instructional videos, aiming to generate coherent and task-aligned action sequences from start and end visual observations. Previous work has mainly relied on text-level supervision to bridge the gap between observed states and unobserved actions, but it struggles with capturing intricate temporal relationships among actions. Building on these efforts, we propose the Masked Temporal Interpolation Diffusion (MTID) model that introduces a latent space temporal interpolation module within the diffusion model. This module leverages a learnable interpolation matrix to generate intermediate latent features, thereby augmenting visual supervision with richer mid-state details. By integrating this enriched supervision into the model, we enable end-to-end training tailored to task-specific requirements, significantly enhancing the model's capacity to predict temporally coherent action sequences. Additionally, we introduce an action-aware mask projection mechanism to restrict the action generation space, combined with a task-adaptive masked proximity loss to prioritize more accurate reasoning results close to the given start and end states over those in intermediate steps. Simultaneously, it filters out task-irrelevant action predictions, leading to contextually aware action sequences. Experimental results across three widely used benchmark datasets demonstrate that our MTID achieves promising action planning performance on most metrics. The code is available at https://github.com/WiserZhou/MTID.
- Abstract(参考訳): 本稿では,授業ビデオにおけるプロシージャ計画の課題に対処し,開始と終了の視覚的観察から協調的かつタスク整合なアクションシーケンスを生成することを目的とする。
これまでの研究は主に、観察された状態と観察されていない行動の間のギャップを埋めるためにテキストレベルの監督に依存してきたが、行動間の複雑な時間的関係を捉えるのに苦労した。
これらの取り組みに基づいて,拡散モデル内に潜時空間時間補間モジュールを導入するMasked Temporal Interpolation Diffusion (MTID)モデルを提案する。
このモジュールは学習可能な補間行列を利用して中間潜時特徴を生成する。
この強化された監視をモデルに組み込むことで、タスク固有の要件に合わせたエンドツーエンドのトレーニングを可能にし、時間的に一貫性のあるアクションシーケンスを予測する能力を大幅に向上する。
さらに、アクション生成空間を制限するためのアクション対応マスクプロジェクション機構を導入し、タスク適応型マスク近接損失と組み合わせて、中間段階よりも与えられた開始状態と終了状態に近い精度の高い推論結果を優先順位付けする。
同時に、タスク非関連なアクション予測をフィルタリングし、コンテキスト的に認識されたアクションシーケンスを生成する。
広く使用されている3つのベンチマークデータセットに対する実験結果から、MTIDが多くのメトリクスに対して有望な行動計画性能を達成することが示された。
コードはhttps://github.com/WiserZhou/MTIDで入手できる。
関連論文リスト
- FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Tapestry of Time and Actions: Modeling Human Activity Sequences using
Temporal Point Process Flows [9.571588145356277]
本稿では,アクティビティシーケンス中のアクションの連続的な分布をモデル化するフレームワークであるProActiveを提案する。
ProActiveは次のアクション予測、シーケンスゴール予測、エンドツーエンドシーケンス生成という3つの高影響問題に対処する。
論文 参考訳(メタデータ) (2023-07-13T19:17:54Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - ProActive: Self-Attentive Temporal Point Process Flows for Activity
Sequences [9.571588145356277]
ProActiveは、アクティビティシーケンス内のアクションの連続的な時間分布をモデル化するためのフレームワークである。
次のアクション予測、シーケンスゴール予測、エンドツーエンドシーケンス生成に対処する。
論文 参考訳(メタデータ) (2022-06-10T16:30:55Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - ASFormer: Transformer for Action Segmentation [9.509416095106493]
本稿では,アクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルASFormerを提案する。
信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。
我々は、長い入力シーケンスを効率的に処理する事前定義された階層表現パターンを適用した。
論文 参考訳(メタデータ) (2021-10-16T13:07:20Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。