Fugu-MT 論文翻訳(概要): Masked Diffusion with Task-awareness for Procedure Planning in Instructional Videos

論文の概要: Masked Diffusion with Task-awareness for Procedure Planning in Instructional Videos

arxiv url: http://arxiv.org/abs/2309.07409v1
Date: Thu, 14 Sep 2023 03:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 16:18:52.314712
Title: Masked Diffusion with Task-awareness for Procedure Planning in Instructional Videos
Title（参考訳）: 課題認識型マスケ拡散による授業映像のプロシージャ計画
Authors: Fen Fang, Yun Liu, Ali Koksal, Qianli Xu, Joo-Hwee Lim
Abstract要約: 指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
参考スコア（独自算出の注目度）: 16.93979476655776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A key challenge with procedure planning in instructional videos lies in how to handle a large decision space consisting of a multitude of action types that belong to various tasks. To understand real-world video content, an AI agent must proficiently discern these action types (e.g., pour milk, pour water, open lid, close lid, etc.) based on brief visual observation. Moreover, it must adeptly capture the intricate semantic relation of the action types and task goals, along with the variable action sequences. Recently, notable progress has been made via the integration of diffusion models and visual representation learning to address the challenge. However, existing models employ rudimentary mechanisms to utilize task information to manage the decision space. To overcome this limitation, we introduce a simple yet effective enhancement - a masked diffusion model. The introduced mask acts akin to a task-oriented attention filter, enabling the diffusion/denoising process to concentrate on a subset of action types. Furthermore, to bolster the accuracy of task classification, we harness more potent visual representation learning techniques. In particular, we learn a joint visual-text embedding, where a text embedding is generated by prompting a pre-trained vision-language model to focus on human actions. We evaluate the method on three public datasets and achieve state-of-the-art performance on multiple metrics. Code is available at https://github.com/ffzzy840304/Masked-PDPP.
Abstract（参考訳）: 教育ビデオにおける手順計画の重要な課題は、様々なタスクに属する多数のアクションタイプからなる大きな意思決定空間をどう扱うかである。現実世界のビデオコンテンツを理解するために、AIエージェントは、簡単な視覚的観察に基づいて、これらのアクションタイプ(例えば、牛乳、注ぐ水、開けた蓋、閉じた蓋など)を巧みに識別する必要がある。さらに、可変アクションシーケンスとともに、アクションタイプとタスク目標の複雑なセマンティックな関係を適切にキャプチャする必要があります。近年,拡散モデルと視覚表現学習の統合により,課題への対処が目覚ましい進歩を遂げている。しかし、既存のモデルは、タスク情報を利用して意思決定空間を管理するための初歩的なメカニズムを採用している。この制限を克服するために,単純かつ効果的な拡張 - マスク拡散モデルを導入する。導入されたマスクはタスク指向のアテンションフィルタに似ており、拡散/デノゲーションプロセスはアクションタイプのサブセットに集中することができる。さらに,タスク分類の精度を高めるために,より強力な視覚表現学習技術を利用する。特に、事前訓練された視覚言語モデルに人間の行動に焦点を当てさせることでテキスト埋め込みが生成される共同視覚テキスト埋め込みを学習する。提案手法は,3つの公開データセット上で評価し,複数のメトリクスを用いた最新性能を実現する。コードはhttps://github.com/ffzzy840304/Masked-PDPPで入手できる。

関連論文リスト

ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding [31.481969919049472]
ActionArtは、人間中心のマルチモーダル理解の研究を促進するために設計された、きめ細かいビデオキャプチャデータセットである。私たちのデータセットは、幅広い人間の行動、人間とオブジェクトの相互作用、さまざまなシナリオをキャプチャする何千ものビデオで構成されています。本研究では,異なる次元にまたがる既存大規模マルチモーダルモデルの細粒度理解能力を評価するために,8つのサブタスクを開発した。
論文参考訳（メタデータ） (2025-04-25T08:05:32Z)
Target-Aware Video Diffusion Models [9.01174307678548]
本稿では、アクターが特定のターゲットと対話する入力画像から映像を生成するターゲット対応ビデオ拡散モデルを提案する。ターゲットに対するアクターの動きを誘導するために、しばしば密度の高い構造や動きの手がかりに依存する既存の制御可能な画像間拡散モデルとは異なり、我々のターゲット認識モデルはターゲットを示すための単純なマスクしか必要としない。
論文参考訳（メタデータ） (2025-03-24T17:59:59Z)
CLAD: Constrained Latent Action Diffusion for Vision-Language Procedure Planning [11.4414301678724]
教師ビデオにおける視覚言語プロシージャ計画のための制約付き潜時行動拡散モデルを提案する。本手法では, 変動オートエンコーダを用いて, 動作と観測の潜在表現を制約として学習する。提案手法は最先端の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2025-03-09T14:31:46Z)
Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。 SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2024-04-08T15:22:38Z)
Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文参考訳（メタデータ） (2023-12-04T02:31:38Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。 InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文参考訳（メタデータ） (2023-09-07T17:56:57Z)
Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文参考訳（メタデータ） (2023-08-13T10:07:46Z)
SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文参考訳（メタデータ） (2023-06-19T04:33:44Z)
ActAR: Actor-Driven Pose Embeddings for Video Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。我々は,赤外スペクトルにおける効率的な人間の行動を認識することを同時に学習する新しい手法を提案する。
論文参考訳（メタデータ） (2022-04-19T05:12:24Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。