論文の概要: Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step
Localization
- arxiv url: http://arxiv.org/abs/2210.04996v1
- Date: Mon, 10 Oct 2022 20:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:09:03.986367
- Title: Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step
Localization
- Title(参考訳): graph2vid: マルチステップローカライズのためのビデオグラウンドへのフローグラフ
- Authors: Nikita Dvornik, Isma Hadji, Hai Pham, Dhaivat Bhatt, Brais Martinez,
Afsaneh Fazly, Allan D. Jepson
- Abstract要約: 教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題点を考察する。
この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。
本稿では,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズムであるGraph2Vidを提案する。
- 参考スコア(独自算出の注目度): 14.95378874133603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the problem of weakly-supervised multi-step
localization in instructional videos. An established approach to this problem
is to rely on a given list of steps. However, in reality, there is often more
than one way to execute a procedure successfully, by following the set of steps
in slightly varying orders. Thus, for successful localization in a given video,
recent works require the actual order of procedure steps in the video, to be
provided by human annotators at both training and test times. Instead, here, we
only rely on generic procedural text that is not tied to a specific video. We
represent the various ways to complete the procedure by transforming the list
of instructions into a procedure flow graph which captures the partial order of
steps. Using the flow graphs reduces both training and test time annotation
requirements. To this end, we introduce the new problem of flow graph to video
grounding. In this setup, we seek the optimal step ordering consistent with the
procedure flow graph and a given video. To solve this problem, we propose a new
algorithm - Graph2Vid - that infers the actual ordering of steps in the video
and simultaneously localizes them. To show the advantage of our proposed
formulation, we extend the CrossTask dataset with procedure flow graph
information. Our experiments show that Graph2Vid is both more efficient than
the baselines and yields strong step localization results, without the need for
step order annotation.
- Abstract(参考訳): 本研究では,教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題について考察する。
この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。
しかし、実際には、手順のセットをわずかに異なる順序で追従することで、手続きを成功させる方法が複数存在することが多い。
したがって、所定のビデオでのローカライズを成功させるためには、最近の作品では、トレーニングとテストの両方の時間に人間の注釈によって提供されるビデオの手続きステップの実際の順序が必要となる。
ここでは、特定のビデオに縛られていない一般的な手続きテキストにのみ依存します。
命令のリストをステップの部分順序をキャプチャするプロシージャフローグラフに変換することにより、手順を完了するための様々な方法を表現する。
フローグラフを使用することで、トレーニングとテスト時間のアノテーションの要求が軽減される。
この目的のために,ビデオグラウンドにフローグラフの新たな問題を導入する。
このセットアップでは,プロシージャフローグラフと所定のビデオに整合した最適なステップ順序を求める。
この問題を解決するために,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズム,Graph2Vidを提案する。
提案手法の利点を示すために,クロスタスクデータセットを手続きフローグラフ情報とともに拡張する。
実験の結果、Graph2Vidはベースラインよりも効率的であり、ステップ順アノテーションを必要とせず、強力なステップローカライゼーション結果が得られることがわかった。
関連論文リスト
- United We Stand, Divided We Fall: UnityGraph for Unsupervised Procedure
Learning from Videos [37.53372462270059]
同じタスクの複数のビデオが与えられた場合、プロシージャ学習は、キーステップを特定し、タスクを実行する順番を決定する。
これにより、ビデオ間の視点が欠如しているため、キーステップの発見が困難になる。
本稿では,タスクのすべての動画をグラフとして表現し,動画内と動画間の両方のコンテキストを得る,教師なしのグラフベースプロシージャ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T21:33:56Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos [47.03252542488226]
本稿では、ビデオ中の命令ステップを検出し、ローカライズする自己教師型モデルであるStepFormerを紹介する。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
本モデルでは,従来の教師なしおよび弱教師付きアプローチにおいて,ステップ検出とローカライゼーションにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-04-26T03:37:28Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - SVIP: Sequence VerIfication for Procedures in Videos [68.07865790764237]
ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
論文 参考訳(メタデータ) (2021-12-13T07:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。