論文の概要: Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step
Localization
- arxiv url: http://arxiv.org/abs/2210.04996v1
- Date: Mon, 10 Oct 2022 20:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:09:03.986367
- Title: Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step
Localization
- Title(参考訳): graph2vid: マルチステップローカライズのためのビデオグラウンドへのフローグラフ
- Authors: Nikita Dvornik, Isma Hadji, Hai Pham, Dhaivat Bhatt, Brais Martinez,
Afsaneh Fazly, Allan D. Jepson
- Abstract要約: 教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題点を考察する。
この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。
本稿では,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズムであるGraph2Vidを提案する。
- 参考スコア(独自算出の注目度): 14.95378874133603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the problem of weakly-supervised multi-step
localization in instructional videos. An established approach to this problem
is to rely on a given list of steps. However, in reality, there is often more
than one way to execute a procedure successfully, by following the set of steps
in slightly varying orders. Thus, for successful localization in a given video,
recent works require the actual order of procedure steps in the video, to be
provided by human annotators at both training and test times. Instead, here, we
only rely on generic procedural text that is not tied to a specific video. We
represent the various ways to complete the procedure by transforming the list
of instructions into a procedure flow graph which captures the partial order of
steps. Using the flow graphs reduces both training and test time annotation
requirements. To this end, we introduce the new problem of flow graph to video
grounding. In this setup, we seek the optimal step ordering consistent with the
procedure flow graph and a given video. To solve this problem, we propose a new
algorithm - Graph2Vid - that infers the actual ordering of steps in the video
and simultaneously localizes them. To show the advantage of our proposed
formulation, we extend the CrossTask dataset with procedure flow graph
information. Our experiments show that Graph2Vid is both more efficient than
the baselines and yields strong step localization results, without the need for
step order annotation.
- Abstract(参考訳): 本研究では,教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題について考察する。
この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。
しかし、実際には、手順のセットをわずかに異なる順序で追従することで、手続きを成功させる方法が複数存在することが多い。
したがって、所定のビデオでのローカライズを成功させるためには、最近の作品では、トレーニングとテストの両方の時間に人間の注釈によって提供されるビデオの手続きステップの実際の順序が必要となる。
ここでは、特定のビデオに縛られていない一般的な手続きテキストにのみ依存します。
命令のリストをステップの部分順序をキャプチャするプロシージャフローグラフに変換することにより、手順を完了するための様々な方法を表現する。
フローグラフを使用することで、トレーニングとテスト時間のアノテーションの要求が軽減される。
この目的のために,ビデオグラウンドにフローグラフの新たな問題を導入する。
このセットアップでは,プロシージャフローグラフと所定のビデオに整合した最適なステップ順序を求める。
この問題を解決するために,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズム,Graph2Vidを提案する。
提案手法の利点を示すために,クロスタスクデータセットを手続きフローグラフ情報とともに拡張する。
実験の結果、Graph2Vidはベースラインよりも効率的であり、ステップ順アノテーションを必要とせず、強力なステップローカライゼーション結果が得られることがわかった。
関連論文リスト
- Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions [57.304601070962086]
本研究の目的は、入力画像が与えられた画像列の形式で、ステップバイステップの視覚的指示を生成することである。
課題の一部は、この問題に対する大規模なトレーニングデータが不足していることに起因する。
本稿では,指導ビデオから大規模視覚指導データを自動的に収集する手法を提案する。
第2に、提供された入力画像に整合したステップバイステップの視覚命令を生成することができるビデオ拡散モデルであるShowHowToを開発し、訓練する。
論文 参考訳(メタデータ) (2024-12-02T21:40:17Z) - Box2Flow: Instance-based Action Flow Graphs from Videos [16.07460333800912]
フローグラフは、タスクのステップ関係を説明するために使用することができる。
現在のタスクベースの手法では、特定のタスクの利用可能なすべてのビデオに対して、単一のフローグラフを学習しようとする。
そこで本研究では,ステップフローグラフを所定のプロシージャビデオから予測するインスタンスベース手法であるBox2Flowを提案する。
論文 参考訳(メタデータ) (2024-08-30T23:33:19Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos [47.03252542488226]
本稿では、ビデオ中の命令ステップを検出し、ローカライズする自己教師型モデルであるStepFormerを紹介する。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
本モデルでは,従来の教師なしおよび弱教師付きアプローチにおいて,ステップ検出とローカライゼーションにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-04-26T03:37:28Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。