論文の概要: Leveraging Procedural Knowledge and Task Hierarchies for Efficient Instructional Video Pre-training
- arxiv url: http://arxiv.org/abs/2502.17352v1
- Date: Mon, 24 Feb 2025 17:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:52.417872
- Title: Leveraging Procedural Knowledge and Task Hierarchies for Efficient Instructional Video Pre-training
- Title(参考訳): 効果的な指導ビデオ事前学習のための手続き的知識とタスク階層の活用
- Authors: Karan Samel, Nitish Sontakke, Irfan Essa,
- Abstract要約: インストラクショナルビデオモデルは、入力ビデオで発生するタスクとステップの両方を推測することができるべきである。
我々は、タスク階層と、指導ビデオに関連する手続きステップを明確に掘り下げる。
タスク認識、ステップ認識、ステップ予測タスクにおいて、この事前学習モデルをテストする。
- 参考スコア(独自算出の注目度): 16.84305914451672
- License:
- Abstract: Instructional videos provide a convenient modality to learn new tasks (ex. cooking a recipe, or assembling furniture). A viewer will want to find a corresponding video that reflects both the overall task they are interested in as well as contains the relevant steps they need to carry out the task. To perform this, an instructional video model should be capable of inferring both the tasks and the steps that occur in an input video. Doing this efficiently and in a generalizable fashion is key when compute or relevant video topics used to train this model are limited. To address these requirements we explicitly mine task hierarchies and the procedural steps associated with instructional videos. We use this prior knowledge to pre-train our model, $\texttt{Pivot}$, for step and task prediction. During pre-training, we also provide video augmentation and early stopping strategies to optimally identify which model to use for downstream tasks. We test this pre-trained model on task recognition, step recognition, and step prediction tasks on two downstream datasets. When pre-training data and compute are limited, we outperform previous baselines along these tasks. Therefore, leveraging prior task and step structures enables efficient training of $\texttt{Pivot}$ for instructional video recommendation.
- Abstract(参考訳): インストラクショナルビデオは、新しいタスク(レシピの調理、家具の組み立てなど)を学ぶのに便利なモダリティを提供する。
視聴者は、興味のある全体的なタスクと、そのタスクを実行するために必要な関連するステップの両方を反映した、対応するビデオを見つけたいと思っています。
これを実現するために、インストラクショナルビデオモデルは、入力ビデオで発生するタスクとステップの両方を推測できるべきである。
これを効率的に、そして一般化可能な方法で行うことは、このモデルを訓練するのに使用される計算または関連するビデオトピックが限られている場合に重要である。
これらの要件に対処するために、タスク階層と、指導ビデオに関連する手続きステップを明確に掘り下げる。
ステップとタスクの予測には、この事前知識をモデルである$\texttt{Pivot}$の事前トレーニングに使用します。
事前トレーニング中に、下流タスクに使用するモデルを最適に識別するために、ビデオ強化と早期停止戦略も提供します。
2つの下流データセット上のタスク認識、ステップ認識、ステップ予測タスクについて、この事前学習モデルをテストする。
事前学習データと計算量が限られている場合、これらのタスクに沿って、以前のベースラインを上回ります。
したがって、事前のタスクとステップ構造を活用することで、指導ビデオレコメンデーションのために$\texttt{Pivot}$の効率的なトレーニングが可能になる。
関連論文リスト
- Transfer Learning for Structured Pruning under Limited Task Data [15.946734013984184]
本稿では,構造化プルーニングとトランスファーラーニングを組み合わせることで,タスク固有のデータの必要性を減らすフレームワークを提案する。
我々は,強いベースライン上での一般化を改良し,刈り取られたモデルが得られることを実証した。
論文 参考訳(メタデータ) (2023-11-10T20:23:35Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos [47.03252542488226]
本稿では、ビデオ中の命令ステップを検出し、ローカライズする自己教師型モデルであるStepFormerを紹介する。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
本モデルでは,従来の教師なしおよび弱教師付きアプローチにおいて,ステップ検出とローカライゼーションにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-04-26T03:37:28Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。