論文の概要: Multimodal Pretraining for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2011.11760v1
- Date: Tue, 10 Nov 2020 21:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:29:59.049722
- Title: Multimodal Pretraining for Dense Video Captioning
- Title(参考訳): ディエンスビデオキャプションのためのマルチモーダルプレトレーニング
- Authors: Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut
- Abstract要約: 我々は、新しい高密度ビデオキャプションデータセット、ビデオタイムラインタグ(ViTT)を構築し、リリースする。
ビデオとキャプションのようなテキストの巨大な教師なしデータセットを活用するマルチモーダルシーケンス・ツー・シーケンス事前学習戦略について検討する。
このようなモデルは多種多様な指導ビデオに対してよく一般化され、堅牢であることを示す。
- 参考スコア(独自算出の注目度): 26.39052753539932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning specific hands-on skills such as cooking, car maintenance, and home
repairs increasingly happens via instructional videos. The user experience with
such videos is known to be improved by meta-information such as time-stamped
annotations for the main steps involved. Generating such annotations
automatically is challenging, and we describe here two relevant contributions.
First, we construct and release a new dense video captioning dataset, Video
Timeline Tags (ViTT), featuring a variety of instructional videos together with
time-stamped annotations. Second, we explore several multimodal
sequence-to-sequence pretraining strategies that leverage large unsupervised
datasets of videos and caption-like texts. We pretrain and subsequently
finetune dense video captioning models using both YouCook2 and ViTT. We show
that such models generalize well and are robust over a wide variety of
instructional videos.
- Abstract(参考訳): 料理、車のメンテナンス、家庭の修理といった特定のハンズオンスキルを学ぶことは、教育ビデオを通じてますます起こる。
このようなビデオのユーザエクスペリエンスは、主要なステップのタイムスタンプアノテーションなどのメタ情報によって改善されることが知られている。
このようなアノテーションの自動生成は困難であり、関連する2つのコントリビューションについて説明する。
まず、様々な指導ビデオとタイムスタンプ付きアノテーションを備えた、新しい高密度ビデオキャプションデータセット、Video Timeline Tags(ViTT)を構築し、リリースする。
第2に,ビデオやキャプションライクなテキストの大きな教師なしデータセットを活用する,マルチモーダルシーケンスからシーケンスへの事前学習戦略について検討する。
YouCook2 と ViTT を併用した高密度動画キャプションモデルの事前訓練を行った。
このようなモデルが一般化し,多種多様な授業ビデオに対して頑健であることを示す。
関連論文リスト
- Multimodal Language Models for Domain-Specific Procedural Video Summarization [0.0]
本研究では,ビデオ要約とステップ・バイ・ステップ・インストラクション生成のためのマルチモーダルモデルについて検討する。
提案手法は,料理や医療処置など特定の領域におけるパフォーマンスを向上させるための微調整のTimeChatに焦点をあてる。
以上の結果から, ドメイン固有の手続きデータに微調整を施すと, TimeChatは長めの動画において, 重要な指導ステップの抽出と要約を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-07T15:50:46Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。