論文の概要: Event-Guided Procedure Planning from Instructional Videos with Text
Supervision
- arxiv url: http://arxiv.org/abs/2308.08885v1
- Date: Thu, 17 Aug 2023 09:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:15:14.832625
- Title: Event-Guided Procedure Planning from Instructional Videos with Text
Supervision
- Title(参考訳): テキストスーパービジョンによる授業映像からのイベントガイドプロシージャ計画
- Authors: An-Lan Wang, Kun-Yu Lin, Jia-Run Du, Jingke Meng, Wei-Shi Zheng
- Abstract要約: 本研究は,テキスト管理による指導ビデオからの手順計画の課題に焦点をあてる。
この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。
本稿では,まず観測された状態から事象を推定し,その状態と予測された事象の両方に基づいて行動計画を行う,新しいイベント誘導パラダイムを提案する。
- 参考スコア(独自算出の注目度): 31.82121743586165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on the task of procedure planning from instructional
videos with text supervision, where a model aims to predict an action sequence
to transform the initial visual state into the goal visual state. A critical
challenge of this task is the large semantic gap between observed visual states
and unobserved intermediate actions, which is ignored by previous works.
Specifically, this semantic gap refers to that the contents in the observed
visual states are semantically different from the elements of some action text
labels in a procedure. To bridge this semantic gap, we propose a novel
event-guided paradigm, which first infers events from the observed states and
then plans out actions based on both the states and predicted events. Our
inspiration comes from that planning a procedure from an instructional video is
to complete a specific event and a specific event usually involves specific
actions. Based on the proposed paradigm, we contribute an Event-guided
Prompting-based Procedure Planning (E3P) model, which encodes event information
into the sequential modeling process to support procedure planning. To further
consider the strong action associations within each event, our E3P adopts a
mask-and-predict approach for relation mining, incorporating a probabilistic
masking scheme for regularization. Extensive experiments on three datasets
demonstrate the effectiveness of our proposed model.
- Abstract(参考訳): そこで本研究では,初期視覚状態を目標視覚状態に変換するためのアクションシーケンスの予測を目的とした,テキスト監督による指導ビデオからのプロシージャ計画の課題に着目した。
この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。
具体的には、この意味ギャップは、観察された視覚状態のコンテンツが、ある手順におけるアクションテキストラベルの要素と意味的に異なることを意味する。
このセマンティックギャップを埋めるために,まず観測された状態から事象を推測し,その状態と予測された事象の両方に基づいて行動計画を行う新しいイベント誘導パラダイムを提案する。
私たちのインスピレーションは、インストラクショナルビデオから手順を計画することは、特定のイベントを完了し、特定のイベントは通常、特定のアクションを伴います。
提案手法に基づき,プロシージャ計画を支援するために,イベント情報を逐次モデリングプロセスにエンコードするイベント誘導型プロシージャ計画(e3p)モデルを提案する。
各イベントにおける強力なアクション関連を更に検討するため、e3pでは、関係マイニングにマスク・アンド・予測アプローチを採用し、正規化のための確率的マスキングスキームを取り入れている。
3つのデータセットに対する大規模な実験により,提案モデルの有効性が示された。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Open-Event Procedure Planning in Instructional Videos [18.67781706733587]
我々は,オープンイベント・プロシージャ・プランニング(OEPP)と呼ばれる新しいタスクを導入し,従来のプロシージャ・プランニングをオープンイベント・セッティングに拡張する。
OEPPは、プランナーが学習した知識をトレーニング中に見たことのない同様のイベントに転送できるかどうかを検証することを目的としている。
論文 参考訳(メタデータ) (2024-07-06T16:11:46Z) - ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos [10.180115984765582]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。
本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文 参考訳(メタデータ) (2024-03-13T14:54:04Z) - SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos [54.01116513202433]
本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
論文 参考訳(メタデータ) (2024-03-03T19:53:06Z) - Pretext Training Algorithms for Event Sequence Data [29.70078362944441]
本稿では,イベントシーケンスデータに適した自己教師付き事前テキスト学習フレームワークを提案する。
私たちのプレテキストタスクは、さまざまなダウンストリームタスクで一般化可能な基礎表現をアンロックします。
論文 参考訳(メタデータ) (2024-02-16T01:25:21Z) - Tapestry of Time and Actions: Modeling Human Activity Sequences using
Temporal Point Process Flows [9.571588145356277]
本稿では,アクティビティシーケンス中のアクションの連続的な分布をモデル化するフレームワークであるProActiveを提案する。
ProActiveは次のアクション予測、シーケンスゴール予測、エンドツーエンドシーケンス生成という3つの高影響問題に対処する。
論文 参考訳(メタデータ) (2023-07-13T19:17:54Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。