論文の概要: Efficient Pre-training for Localized Instruction Generation of Videos
- arxiv url: http://arxiv.org/abs/2311.15964v4
- Date: Sat, 20 Jul 2024 17:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:16:55.013626
- Title: Efficient Pre-training for Localized Instruction Generation of Videos
- Title(参考訳): 映像の局所的インストラクション生成のための効果的な事前学習
- Authors: Anil Batra, Davide Moltisanti, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller,
- Abstract要約: 手続きビデオはステップバイステップの指示を伝えるのに役立ちます。
Process Transformer (ProcX) は、プロシージャビデオのエンドツーエンドのステップローカライズと命令生成のためのモデルである。
- 参考スコア(独自算出の注目度): 32.13509517228516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural videos, exemplified by recipe demonstrations, are instrumental in conveying step-by-step instructions. However, understanding such videos is challenging as it involves the precise localization of steps and the generation of textual instructions. Manually annotating steps and writing instructions is costly, which limits the size of current datasets and hinders effective learning. Leveraging large but noisy video-transcript datasets for pre-training can boost performance but demands significant computational resources. Furthermore, transcripts contain irrelevant content and differ in style from human-written instructions. To mitigate these issues, we propose a novel technique, Sieve-&-Swap, to automatically generate high-quality training data for the recipe domain: (i) Sieve: filters irrelevant transcripts and (ii) Swap: acquires high-quality text by replacing transcripts with human-written instruction from a text-only recipe dataset. The resulting dataset is three orders of magnitude smaller than current web-scale datasets but enables efficient training of large-scale models. Alongside Sieve-&-Swap, we propose Procedure Transformer (ProcX), a model for end-to-end step localization and instruction generation for procedural videos. When pre-trained on our curated dataset, this model achieves state-of-the-art performance on YouCook2 and Tasty while using a fraction of the training data. We have released code and dataset.
- Abstract(参考訳): レシピのデモで例示された手続き的なビデオは、ステップバイステップの指示を伝えるのに役立ちます。
しかし、ステップの正確な位置化やテキスト命令の生成など、そのようなビデオを理解することは困難である。
手作業による注釈付けと命令の記述はコストがかかり、現在のデータセットのサイズが制限され、効果的な学習を妨げる。
大規模だがノイズの多いビデオ書き起こしデータセットを事前トレーニングに活用することで、パフォーマンスが向上するが、かなりの計算資源を必要とする。
さらに、写本には無関係な内容が含まれており、人書きの指示と様式が異なる。
これらの問題を緩和するために、レシピ領域の高品質なトレーニングデータを自動的に生成する新しい手法、Sieve-&-Swapを提案する。
i) Sieve:無関係な転写文をフィルタリングし、
(ii)Swap: テキストのみのレシピデータセットから手書きの命令に書き起こしを置き換え,高品質なテキストを取得する。
得られたデータセットは、現在のWebスケールデータセットよりも3桁小さいが、大規模モデルの効率的なトレーニングを可能にする。
Sieve-&Swap とともに,プロシージャ・トランスフォーマー (ProcX) を提案する。
キュレートされたデータセットで事前トレーニングを行うと、このモデルはトレーニングデータの一部を使用しながら、YouCook2とTastyの最先端のパフォーマンスを達成する。
コードとデータセットをリリースしました。
関連論文リスト
- Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - MSdocTr-Lite: A Lite Transformer for Full Page Multi-script Handwriting
Recognition [3.0682439731292592]
フルページマルチスクリプト手書き文字認識のためのライトトランスアーキテクチャを提案する。
提案されたモデルには3つの利点がある。
カリキュラム学習戦略により,ページレベルの読み順を学習することができる。
簡単なトランスファー学習プロセスを適用することで、他のスクリプトに容易に適応できる。
論文 参考訳(メタデータ) (2023-03-24T11:40:50Z) - One Embedder, Any Task: Instruction-Finetuned Text Embeddings [105.82772523968961]
INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。
すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。
InSTRUCTORを70の埋め込み評価タスクで評価する。
論文 参考訳(メタデータ) (2022-12-19T18:57:05Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text
Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。
電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文 参考訳(メタデータ) (2021-12-15T19:02:49Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。