論文の概要: Transcript to Video: Efficient Clip Sequencing from Texts
- arxiv url: http://arxiv.org/abs/2107.11851v2
- Date: Mon, 20 Nov 2023 02:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 21:25:29.438658
- Title: Transcript to Video: Efficient Clip Sequencing from Texts
- Title(参考訳): Transcript to Video: テキストからの効率的なクリップシークエンシング
- Authors: Yu Xiong, Fabian Caba Heilbron, Dahua Lin
- Abstract要約: Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
- 参考スコア(独自算出の注目度): 65.87890762420922
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Among numerous videos shared on the web, well-edited ones always attract more
attention. However, it is difficult for inexperienced users to make well-edited
videos because it requires professional expertise and immense manual labor. To
meet the demands for non-experts, we present Transcript-to-Video -- a
weakly-supervised framework that uses texts as input to automatically create
video sequences from an extensive collection of shots. Specifically, we propose
a Content Retrieval Module and a Temporal Coherent Module to learn
visual-language representations and model shot sequencing styles, respectively.
For fast inference, we introduce an efficient search strategy for real-time
video clip sequencing. Quantitative results and user studies demonstrate
empirically that the proposed learning framework can retrieve content-relevant
shots while creating plausible video sequences in terms of style. Besides, the
run-time performance analysis shows that our framework can support real-world
applications.
- Abstract(参考訳): Web上で共有される多くのビデオの中で、よく編集されたビデオが常に注目を集めている。
しかし、専門知識と膨大な手作業を必要とするため、未熟な利用者がうまく編集された動画を作成することは困難である。
非専門家の要求を満たすために、私たちはTranscript-to-Videoという、テキストを入力として使用する弱い教師付きフレームワークを紹介します。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速推定のために,リアルタイムビデオクリップシーケンシングのための効率的な検索戦略を提案する。
定量的な結果とユーザスタディにより,提案する学習フレームワークが,スタイルの観点でもっともらしい映像シーケンスを作成しながら,コンテンツ関連ショットを検索できることが実証された。
さらに、ランタイムパフォーマンス分析によって、フレームワークが現実世界のアプリケーションをサポートできることが分かりました。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。