論文の概要: Efficient Pre-training for Localized Instruction Generation of Videos
- arxiv url: http://arxiv.org/abs/2311.15964v1
- Date: Mon, 27 Nov 2023 16:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:30:27.264662
- Title: Efficient Pre-training for Localized Instruction Generation of Videos
- Title(参考訳): ビデオの局所的命令生成のための効率的事前学習
- Authors: Anil Batra, Davide Moltisanti, Laura Sevilla-Lara, Marcus Rohrbach,
Frank Keller
- Abstract要約: 手順ビデオは、レシピの準備のようなタスクのステップバイステップのデモを見せている。
ステップのアノテートと命令の記述にはコストがかかり、現在のデータセットのサイズが制限される。
より小さなデータセットを自動的にキュレートする手法であるSieve-&-Swapを提案する。
- 参考スコア(独自算出の注目度): 34.476006840638874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural videos show step-by-step demonstrations of tasks like recipe
preparation. Understanding such videos is challenging, involving the precise
localization of steps and the generation of textual instructions. Manually
annotating steps and writing instructions is costly, which limits the size of
current datasets and hinders effective learning. Leveraging large but noisy
video-transcript datasets for pre-training can boost performance, but demands
significant computational resources. Furthermore, transcripts contain
irrelevant content and exhibit style variation compared to instructions written
by human annotators. To mitigate both issues, we propose a technique,
Sieve-&-Swap, to automatically curate a smaller dataset: (i) Sieve filters
irrelevant transcripts and (ii) Swap enhances the quality of the text
instruction by automatically replacing the transcripts with human-written
instructions from a text-only recipe dataset. The curated dataset, three orders
of magnitude smaller than current web-scale datasets, enables efficient
training of large-scale models with competitive performance. We complement our
Sieve-\&-Swap approach with a Procedure Transformer (ProcX) for end-to-end step
localization and instruction generation for procedural videos. When this model
is pre-trained on our curated dataset, it achieves state-of-the-art performance
in zero-shot and finetuning settings on YouCook2 and Tasty, while using a
fraction of the computational resources.
- Abstract(参考訳): 手順ビデオは、レシピの準備などのタスクのステップバイステップのデモを示している。
このようなビデオを理解することは困難であり、ステップの正確なローカライズとテキスト命令の生成が伴う。
手作業による注釈付けと命令の記述はコストがかかり、現在のデータセットのサイズが制限され、効果的な学習を妨げる。
事前トレーニングのために大きくて騒がしいビデオ書き起こしデータセットを活用すると、パフォーマンスは向上するが、大きな計算資源を必要とする。
さらに、書き起こしには無関係な内容が含まれており、人間の注釈者による指示と比較してスタイルの変化を示す。
この問題を軽減するために,より小さなデータセットを自動的にキュレートする手法であるsieve-&-swapを提案する。
(i)無関係な転写物及びフィルター
(ii)スワップはテキストのみのレシピデータセットから人書きの命令に書き起こしを自動的に置き換えることでテキスト命令の品質を向上させる。
キュレートされたデータセットは、現在のWebスケールデータセットよりも3桁小さく、競争力のある大規模モデルの効率的なトレーニングを可能にする。
プロシージャビデオのステップローカライゼーションと命令生成のためのプロシージャトランスフォーマー(ProcX)を用いて,Sieve-\-Swapアプローチを補完する。
このモデルがキュレートされたデータセット上で事前トレーニングされている場合,YouCook2 と Tasty のゼロショットおよび微調整設定において,計算資源のごく一部を使用しながら最先端のパフォーマンスを達成する。
関連論文リスト
- REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文 参考訳(メタデータ) (2024-08-20T09:05:03Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - MSdocTr-Lite: A Lite Transformer for Full Page Multi-script Handwriting
Recognition [3.0682439731292592]
フルページマルチスクリプト手書き文字認識のためのライトトランスアーキテクチャを提案する。
提案されたモデルには3つの利点がある。
カリキュラム学習戦略により,ページレベルの読み順を学習することができる。
簡単なトランスファー学習プロセスを適用することで、他のスクリプトに容易に適応できる。
論文 参考訳(メタデータ) (2023-03-24T11:40:50Z) - One Embedder, Any Task: Instruction-Finetuned Text Embeddings [105.82772523968961]
INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。
すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。
InSTRUCTORを70の埋め込み評価タスクで評価する。
論文 参考訳(メタデータ) (2022-12-19T18:57:05Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。