論文の概要: Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2412.08879v2
- Date: Mon, 16 Dec 2024 03:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:01.447244
- Title: Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark
- Title(参考訳): ユーザ生成コンテンツからビデオを取得する: 大規模データセットとベンチマーク
- Authors: Yongliang Wu, Wenbo Zhu, Jiawang Cao, Yi Lu, Bozheng Li, Weiheng Chi, Zihan Qiu, Lirian Su, Haolin Zheng, Jay Wu, Xu Yang,
- Abstract要約: 1万本以上のビデオと12万本以上の注釈付きクリップからなる広範囲なデータセットであるRepurpose-10Kを提案する。
実世界のユーザ生成コンテンツからアノテーションを得るための2段階のソリューションを提案する。
この課題に対処するためのベースラインモデルとして,音声,視覚,キャプションの各側面を統合する。
- 参考スコア(独自算出の注目度): 5.76230561819199
- License:
- Abstract: The demand for producing short-form videos for sharing on social media platforms has experienced significant growth in recent times. Despite notable advancements in the fields of video summarization and highlight detection, which can create partially usable short films from raw videos, these approaches are often domain-specific and require an in-depth understanding of real-world video content. To tackle this predicament, we propose Repurpose-10K, an extensive dataset comprising over 10,000 videos with more than 120,000 annotated clips aimed at resolving the video long-to-short task. Recognizing the inherent constraints posed by untrained human annotators, which can result in inaccurate annotations for repurposed videos, we propose a two-stage solution to obtain annotations from real-world user-generated content. Furthermore, we offer a baseline model to address this challenging task by integrating audio, visual, and caption aspects through a cross-modal fusion and alignment framework. We aspire for our work to ignite groundbreaking research in the lesser-explored realms of video repurposing.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上での共有のためのショートフォームビデオの需要は、近年大きく伸びている。
ビデオ要約とハイライト検出の分野で顕著な進歩があり、生のビデオから部分的に使用可能な短編映画を作ることができるが、これらのアプローチはしばしばドメイン固有であり、現実世界のビデオコンテンツについて深く理解する必要がある。
この障害に対処するために,ビデオ長短タスクの解決を目的とした1万本以上の注釈付きクリップと1万本以上のビデオからなる広範囲なデータセットであるRepurpose-10Kを提案する。
そこで本研究では,実世界のユーザ生成コンテンツからアノテーションを得るための2段階のソリューションを提案する。
さらに,この課題に対処するためのベースラインモデルとして,音声・視覚・キャプションの側面を相互融合・アライメントフレームワークを通じて統合する。
私たちは、ビデオ再生というより探索の少ない領域における画期的な研究に火をつけたいと考えています。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MovieChat+: Question-aware Sparse Memory for Long Video Question Answering [36.14140811797466]
長編ビデオの理解という課題を克服するために,MovieChatを提案する。
我々はトランスフォーマーのトークンを特別な設計のメモリ機構と組み合わせてメモリのキャリアとして使用しています。
MovieChatは1Kの長ビデオと2Kの時間的グラウンドラベルと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長いビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-04-26T06:17:04Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。