論文の概要: Box2Flow: Instance-based Action Flow Graphs from Videos
- arxiv url: http://arxiv.org/abs/2409.00295v1
- Date: Fri, 30 Aug 2024 23:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:46:49.802658
- Title: Box2Flow: Instance-based Action Flow Graphs from Videos
- Title(参考訳): Box2Flow: ビデオからのインスタンスベースのアクションフローグラフ
- Authors: Jiatong Li, Kalliopi Basioti, Vladimir Pavlovic,
- Abstract要約: フローグラフは、タスクのステップ関係を説明するために使用することができる。
現在のタスクベースの手法では、特定のタスクの利用可能なすべてのビデオに対して、単一のフローグラフを学習しようとする。
そこで本研究では,ステップフローグラフを所定のプロシージャビデオから予測するインスタンスベース手法であるBox2Flowを提案する。
- 参考スコア(独自算出の注目度): 16.07460333800912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large amount of procedural videos on the web show how to complete various tasks. These tasks can often be accomplished in different ways and step orderings, with some steps able to be performed simultaneously, while others are constrained to be completed in a specific order. Flow graphs can be used to illustrate the step relationships of a task. Current task-based methods try to learn a single flow graph for all available videos of a specific task. The extracted flow graphs tend to be too abstract, failing to capture detailed step descriptions. In this work, our aim is to learn accurate and rich flow graphs by extracting them from a single video. We propose Box2Flow, an instance-based method to predict a step flow graph from a given procedural video. In detail, we extract bounding boxes from videos, predict pairwise edge probabilities between step pairs, and build the flow graph with a spanning tree algorithm. Experiments on MM-ReS and YouCookII show our method can extract flow graphs effectively.
- Abstract(参考訳): ウェブ上のプロシージャビデオは、様々なタスクを完了させる方法を示している。
これらのタスクは、しばしば異なる方法で実行され、いくつかのステップを同時に実行でき、他のステップは特定の順序で完了するように制約される。
フローグラフは、タスクのステップ関係を説明するために使用することができる。
現在のタスクベースの手法では、特定のタスクの利用可能なすべてのビデオに対して、単一のフローグラフを学習しようとする。
抽出されたフローグラフは抽象的すぎる傾向があり、詳細なステップ記述をキャプチャできない。
本研究の目的は,単一のビデオからそれらを抽出することで,正確でリッチなフローグラフを学習することである。
そこで本研究では,ステップフローグラフを所定のプロシージャビデオから予測するインスタンスベース手法であるBox2Flowを提案する。
詳しくは,ビデオからバウンディングボックスを抽出し,ステップペア間の一対のエッジ確率を予測し,スパンニングツリーアルゴリズムを用いてフローグラフを構築する。
MM-ReSとYouCookIIの実験により,フローグラフを効果的に抽出できることを示す。
関連論文リスト
- InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - All in One: Multi-task Prompting for Graph Neural Networks [30.457491401821652]
本稿では,グラフモデルのための新しいマルチタスクプロンプト手法を提案する。
まず、グラフプロンプトと言語プロンプトのフォーマットを、プロンプトトークン、トークン構造、挿入パターンで統一する。
次に、様々なグラフアプリケーションのタスク空間を調査し、下流の問題をグラフレベルのタスクに再構成する。
論文 参考訳(メタデータ) (2023-07-04T06:27:31Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Multimodal Subtask Graph Generation from Instructional Videos [51.96856868195961]
実世界のタスクは複数の相互依存サブタスクから構成される。
本研究では,タスクを記述する指導ビデオから,そのようなサブタスク間の因果関係をモデル化することを目的とする。
マルチモーダルなサブタスクグラフ生成(MSG2)を提案する。これは、ノイズの多いWebビデオからタスクに関連するタスクのサブタスク間の依存性を定義するサブタスクグラフを構築するアプローチである。
論文 参考訳(メタデータ) (2023-02-17T03:41:38Z) - Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step
Localization [14.95378874133603]
教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題点を考察する。
この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。
本稿では,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズムであるGraph2Vidを提案する。
論文 参考訳(メタデータ) (2022-10-10T20:02:58Z) - Learnable Graph Matching: Incorporating Graph Partitioning with Deep
Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。
既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。
そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:58:45Z) - Flow-edge Guided Video Completion [66.49077223104533]
従来のフローコンプリート法は、しばしば運動境界のシャープさを維持することができない。
提案手法は,まず動きエッジを抽出し,その後,鋭いエッジで平滑な流れ完了を導出する。
論文 参考訳(メタデータ) (2020-09-03T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。