論文の概要: A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos
- arxiv url: http://arxiv.org/abs/2005.00706v2
- Date: Fri, 9 Oct 2020 13:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:50:21.489710
- Title: A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos
- Title(参考訳): 料理映像からの構造化手続き知識抽出のためのベンチマーク
- Authors: Frank F. Xu, Lei Ji, Botian Shi, Junyi Du, Graham Neubig, Yonatan
Bisk, Nan Duan
- Abstract要約: 本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
- 参考スコア(独自算出の注目度): 126.66212285239624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watching instructional videos are often used to learn about procedures. Video
captioning is one way of automatically collecting such knowledge. However, it
provides only an indirect, overall evaluation of multimodal models with no
finer-grained quantitative measure of what they have learned. We propose
instead, a benchmark of structured procedural knowledge extracted from cooking
videos. This work is complementary to existing tasks, but requires models to
produce interpretable structured knowledge in the form of verb-argument tuples.
Our manually annotated open-vocabulary resource includes 356 instructional
cooking videos and 15,523 video clip/sentence-level annotations. Our analysis
shows that the proposed task is challenging and standard modeling approaches
like unsupervised segmentation, semantic role labeling, and visual action
detection perform poorly when forced to predict every action of a procedure in
a structured form.
- Abstract(参考訳): 指導ビデオを見ることは、しばしば手順を学ぶために使われる。
ビデオキャプションは、そのような知識を自動的に収集する方法のひとつだ。
しかし、これは、彼らが学んだことのよりきめ細かい定量的尺度を持たない、間接的に総合的なマルチモーダルモデルの評価のみを提供する。
そこで本研究では,料理ビデオから抽出した構造化手続き知識のベンチマークを提案する。
この作業は既存のタスクを補完するが、動詞引数タプルの形で解釈可能な構造化知識を生成するモデルを必要とする。
注記付きオープンボキャブラリリソースには,356の教示調理ビデオと15,523のビデオクリップ/センテンスレベルのアノテーションが含まれています。
分析の結果,提案課題は難易度が高く,非教師付きセグメンテーションやセマンティック・ロール・ラベリング,視覚行動検出といった標準的なモデリング手法では,プロシージャのすべての動作を構造化形式で予測することが困難であった。
関連論文リスト
- Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - CLOP: Video-and-Language Pre-Training with Knowledge Regularizations [43.09248976105326]
ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。
このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。
知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
論文 参考訳(メタデータ) (2022-11-07T05:32:12Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。