論文の概要: Non-Sequential Graph Script Induction via Multimedia Grounding
- arxiv url: http://arxiv.org/abs/2305.17542v1
- Date: Sat, 27 May 2023 18:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:26:10.767411
- Title: Non-Sequential Graph Script Induction via Multimedia Grounding
- Title(参考訳): マルチメディアグラウンドリングによる非逐次グラフスクリプトインジェクション
- Authors: Yu Zhou, Sha Li, Manling Li, Xudong Lin, Shih-Fu Chang, Mohit Bansal
and Heng Ji
- Abstract要約: 我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
- 参考スコア(独自算出の注目度): 129.83134296316493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online resources such as WikiHow compile a wide range of scripts for
performing everyday tasks, which can assist models in learning to reason about
procedures. However, the scripts are always presented in a linear manner, which
does not reflect the flexibility displayed by people executing tasks in real
life. For example, in the CrossTask Dataset, 64.5% of consecutive step pairs
are also observed in the reverse order, suggesting their ordering is not fixed.
In addition, each step has an average of 2.56 frequent next steps,
demonstrating "branching". In this paper, we propose the new challenging task
of non-sequential graph script induction, aiming to capture optional and
interchangeable steps in procedural planning. To automate the induction of such
graph scripts for given tasks, we propose to take advantage of loosely aligned
videos of people performing the tasks. In particular, we design a multimodal
framework to ground procedural videos to WikiHow textual steps and thus
transform each video into an observed step path on the latent ground truth
graph script. This key transformation enables us to train a script knowledge
model capable of both generating explicit graph scripts for learnt tasks and
predicting future steps given a partial step sequence. Our best model
outperforms the strongest pure text/vision baselines by 17.52% absolute gains
on F1@3 for next step prediction and 13.8% absolute gains on Acc@1 for partial
sequence completion. Human evaluation shows our model outperforming the WikiHow
linear baseline by 48.76% absolute gains in capturing sequential and
non-sequential step relationships.
- Abstract(参考訳): WikiHowのようなオンラインリソースは、日常的なタスクを実行するための幅広いスクリプトをコンパイルする。
しかし、スクリプトは常に直線的に表示され、実際のタスクを実行する人が表示する柔軟性を反映していない。
例えば、クロスタスクデータセットでは、連続したステップペアの64.5%が逆順序で観察され、順序が固定されていないことを示唆する。
さらに、各ステップの平均的な次のステップは2.56で、"ブランチ"を示す。
本稿では,プロシージャ計画における任意のステップと交換可能なステップを捉えることを目的とした,非逐次グラフスクリプトインジェクションの課題を提案する。
与えられたタスクに対するグラフスクリプトの誘導を自動化するために,タスクを実行する人の疎結合ビデオを活用することを提案する。
特に,手続き的映像をwikihowテクストステップにグラウンドするマルチモーダル・フレームワークを設計し,各映像を潜在的地上真理グラフスクリプト上で観察されたステップパスに変換する。
このキー変換により、学習タスクのための明示的なグラフスクリプトの生成と、部分的なステップシーケンスによって将来のステップを予測することができるスクリプト知識モデルをトレーニングすることができます。
我々の最良のモデルは、F1@3で17.52%、Acc@1で13.8%の絶対ゲインで部分的なシークエンス完了で最高の純粋テキスト/ビジョンベースラインを上回ります。
人間による評価では、ウィキハウ線形ベースラインを48.76%上回っており、シーケンシャルおよび非シーケンシャルなステップ関係を捉えている。
関連論文リスト
- Box2Flow: Instance-based Action Flow Graphs from Videos [16.07460333800912]
フローグラフは、タスクのステップ関係を説明するために使用することができる。
現在のタスクベースの手法では、特定のタスクの利用可能なすべてのビデオに対して、単一のフローグラフを学習しようとする。
そこで本研究では,ステップフローグラフを所定のプロシージャビデオから予測するインスタンスベース手法であるBox2Flowを提案する。
論文 参考訳(メタデータ) (2024-08-30T23:33:19Z) - Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos [13.99137623722021]
手続き的活動は、特定の目標を達成するための重要なステップのシーケンスである。
タスクグラフは、手続き的活動の人間的に理解可能な表現として現れてきた。
論文 参考訳(メタデータ) (2024-06-03T16:11:39Z) - MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain
Everyday Tasks [28.27986773292919]
新しいベンチマークチャレンジであるMultiScriptを提示します。
どちらのタスクも、入力はターゲットタスク名と、ターゲットタスクを完了するために何をしたかを示すビデオから成っている。
期待される出力は、(1)デモビデオに基づくテキスト中の構造化されたステップ記述のシーケンス、(2)次のステップのための単一のテキスト記述である。
論文 参考訳(メタデータ) (2023-10-08T01:51:17Z) - Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step
Localization [14.95378874133603]
教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題点を考察する。
この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。
本稿では,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズムであるGraph2Vidを提案する。
論文 参考訳(メタデータ) (2022-10-10T20:02:58Z) - SVIP: Sequence VerIfication for Procedures in Videos [68.07865790764237]
ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
論文 参考訳(メタデータ) (2021-12-13T07:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。