論文の概要: Lotus: Creating Short Videos From Long Videos With Abstractive and Extractive Summarization
- arxiv url: http://arxiv.org/abs/2502.07096v1
- Date: Mon, 10 Feb 2025 22:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:37.347768
- Title: Lotus: Creating Short Videos From Long Videos With Abstractive and Extractive Summarization
- Title(参考訳): Lotus: 抽象的で抽出的な要約で長いビデオから短いビデオを作る
- Authors: Aadit Barua, Karim Benharrak, Meng Chen, Mina Huh, Amy Pavel,
- Abstract要約: 短いビデオはTikTokやInstagramなどのプラットフォームで人気がある。
現在、クリエイターはビジュアルに新たに録音されたナレーションを追加することで、既存の長編ビデオクリップや抽象的短編ビデオからなる抽出的短編ビデオを作成している。
オリジナルコンテンツの保存とコンテンツの柔軟性のバランスを両立させるシステムであるLotusを紹介する。
- 参考スコア(独自算出の注目度): 11.591902012488942
- License:
- Abstract: Short-form videos are popular on platforms like TikTok and Instagram as they quickly capture viewers' attention. Many creators repurpose their long-form videos to produce short-form videos, but creators report that planning, extracting, and arranging clips from long-form videos is challenging. Currently, creators make extractive short-form videos composed of existing long-form video clips or abstractive short-form videos by adding newly recorded narration to visuals. While extractive videos maintain the original connection between audio and visuals, abstractive videos offer flexibility in selecting content to be included in a shorter time. We present Lotus, a system that combines both approaches to balance preserving the original content with flexibility over the content. Lotus first creates an abstractive short-form video by generating both a short-form script and its corresponding speech, then matching long-form video clips to the generated narration. Creators can then add extractive clips with an automated method or Lotus's editing interface. Lotus's interface can be used to further refine the short-form video. We compare short-form videos generated by Lotus with those using an extractive baseline method. In our user study, we compare creating short-form videos using Lotus to participants' existing practice.
- Abstract(参考訳): 短いビデオはTikTokやInstagramなどのプラットフォームで人気があり、視聴者の注意を素早く捉えている。
多くのクリエーターは、長大なビデオを再利用して短大なビデオを作るが、長大なビデオの企画、抽出、整理は難しい、とクリエイターは報告している。
現在、クリエイターはビジュアルに新たに録音されたナレーションを追加することで、既存の長編ビデオクリップや抽象的短編ビデオからなる抽出的短編ビデオを作成している。
抽出ビデオは、音声と視覚の間のオリジナルの接続を維持しているが、抽象ビデオは、短い時間で含めるコンテンツを選択する柔軟性を提供する。
オリジナルコンテンツの保存とコンテンツの柔軟性のバランスを両立させるシステムであるLotusを紹介する。
Lotusはまず、短文のスクリプトとその対応する音声を生成し、長文のビデオクリップと生成されたナレーションをマッチングすることによって、抽象的な短文のビデオを生成する。
クリエータは、自動メソッドまたはLotusの編集インターフェースで抽出クリップを追加することができる。
ロータスのインタフェースはショートフォームビデオをさらに洗練するために使用することができる。
ロータスが生成したショートフォームビデオと抽出ベースラインを用いたショートフォームビデオを比較した。
ユーザスタディでは,Lotusを用いたショートフォームビデオの作成と参加者の既存の実践を比較した。
関連論文リスト
- Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - Beyond the Frame: Single and mutilple video summarization method with
user-defined length [4.424739166856966]
ビデオの要約は難しいが重要な作業であり、さらなる研究と開発にかなりの可能性がある。
本稿では,NLP技術とビデオ処理技術を組み合わせて,長い動画を比較的短いビデオに変換する。
論文 参考訳(メタデータ) (2023-12-23T04:32:07Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。