論文の概要: Sentence Guided Temporal Modulation for Dynamic Video Thumbnail
Generation
- arxiv url: http://arxiv.org/abs/2008.13362v1
- Date: Mon, 31 Aug 2020 04:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 07:09:46.487409
- Title: Sentence Guided Temporal Modulation for Dynamic Video Thumbnail
Generation
- Title(参考訳): 動的ビデオサムネイル生成のための文案内時間変調
- Authors: Mrigank Rochan, Mahesh Kumar Krishna Reddy, Yang Wang
- Abstract要約: 文特定動的ビデオサムネイル生成の問題点を考察する。
入力ビデオとユーザクエリ文が与えられた場合、ゴールはビデオコンテンツのプレビューを提供するだけでなく、意味的にその文に対応するビデオサムネイルを生成することである。
本稿では,ビデオサムネイル生成ネットワークの正規化時間的アクティベーションの調整に文埋め込みを利用する文案内時間変調(SGTM)機構を提案する。
- 参考スコア(独自算出の注目度): 14.778894009258197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of sentence specified dynamic video thumbnail
generation. Given an input video and a user query sentence, the goal is to
generate a video thumbnail that not only provides the preview of the video
content, but also semantically corresponds to the sentence. In this paper, we
propose a sentence guided temporal modulation (SGTM) mechanism that utilizes
the sentence embedding to modulate the normalized temporal activations of the
video thumbnail generation network. Unlike the existing state-of-the-art method
that uses recurrent architectures, we propose a non-recurrent framework that is
simple and allows much more parallelization. Extensive experiments and analysis
on a large-scale dataset demonstrate the effectiveness of our framework.
- Abstract(参考訳): 文特定動的ビデオサムネイル生成の問題点を考察する。
入力ビデオとユーザクエリ文が与えられた場合、ゴールはビデオコンテンツのプレビューを提供するだけでなく、意味的にその文に対応するビデオサムネイルを生成することである。
本稿では,映像サムネイル生成ネットワークの正規化時間活性化を変調するために文埋め込みを利用した文誘導時間変調(sgtm)機構を提案する。
recurrentアーキテクチャを使用する既存のstate-of-the-artメソッドとは異なり、よりシンプルな並列化を可能にする非recurrentフレームワークを提案する。
大規模データセットに関する広範な実験と分析は,このフレームワークの有効性を実証するものだ。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。