Fugu-MT 論文翻訳(概要): PEEKABOO: Interactive Video Generation via Masked-Diffusion

論文の概要: PEEKABOO: Interactive Video Generation via Masked-Diffusion

arxiv url: http://arxiv.org/abs/2312.07509v1
Date: Tue, 12 Dec 2023 18:43:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 14:53:18.257494
Title: PEEKABOO: Interactive Video Generation via Masked-Diffusion
Title（参考訳）: PEEKABOO:masked-Diffusionによるインタラクティブビデオ生成
Authors: Yash Jain, Anshul Nasery, Vibhav Vineet, Harkirat Behl
Abstract要約: Peekabooは、既製のビデオ生成モデルに、トレーニングなし、ノン・イン・オーバーヘッドな追加機能だ。 Peekabooはビデオ生成を制御でき、ベースラインモデルで最大3.8倍のゲインが得られる。
参考スコア（独自算出の注目度）: 17.774312162403135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently there has been a lot of progress in text-to-video generation, with state-of-the-art models being capable of generating high quality, realistic videos. However, these models lack the capability for users to interactively control and generate videos, which can potentially unlock new areas of application. As a first step towards this goal, we tackle the problem of endowing diffusion-based video generation models with interactive spatio-temporal control over their output. To this end, we take inspiration from the recent advances in segmentation literature to propose a novel spatio-temporal masked attention module - Peekaboo. This module is a training-free, no-inference-overhead addition to off-the-shelf video generation models which enables spatio-temporal control. We also propose an evaluation benchmark for the interactive video generation task. Through extensive qualitative and quantitative evaluation, we establish that Peekaboo enables control video generation and even obtains a gain of upto 3.8x in mIoU over baseline models.
Abstract（参考訳）: 近年,高品質でリアルな映像を生成できる最先端のモデルが登場し,テキスト対ビデオ生成が盛んに進んでいる。しかし、これらのモデルにはユーザーがインタラクティブに動画をコントロールして生成する機能がないため、新しいアプリケーション領域をアンロックする可能性がある。この目標に向けた第一歩として,対話型時空間制御による拡散型ビデオ生成モデルの実現という課題に取り組む。この目的のために,セグメンテーション文学の最近の進歩から着想を得て,新しい時空間マスク付注意モジュールであるpeekabooを提案する。このモジュールは、時空間制御を可能にするオフザシェルフビデオ生成モデルに対して、トレーニング不要で非推論オーバーヘッドの追加である。また,対話型ビデオ生成タスクの評価ベンチマークを提案する。定性的かつ定量的な評価により、Peekabooは制御ビデオ生成を可能にし、mIoUのベースラインモデルよりも最大3.8倍のゲインを得る。

関連論文リスト

Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文参考訳（メタデータ） (2025-07-22T06:05:34Z)
MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文参考訳（メタデータ） (2025-05-29T17:58:15Z)
Enhance-A-Video: Better Generated Video for Free [57.620595159855064]
本稿では,DiTをベースとしたビデオのコヒーレンスと品質を高めるためのトレーニング不要な手法を提案する。我々のアプローチは、リトレーニングや微調整なしに、ほとんどのDiTベースのビデオ生成フレームワークに容易に適用できる。
論文参考訳（メタデータ） (2025-02-11T12:22:35Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
HunyuanVideo: A Systematic Framework For Large Video Generative Models [82.4392082688739]
HunyuanVideoは、革新的なオープンソースのビデオファンデーションモデルだ。データキュレーション、高度なアーキテクチャ設計、プログレッシブモデルスケーリング、トレーニングが組み込まれている。その結果,13億以上のパラメータを持つビデオ生成モデルの訓練に成功した。
論文参考訳（メタデータ） (2024-12-03T23:52:37Z)
The Dawn of Video Generation: Preliminary Explorations with SORA-like Models [14.528428430884015]
テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、コンテンツ作成においてかなりの重要性を持っている。 SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、コントロール可能性の向上といった高度なビデオを生成することができる。
論文参考訳（メタデータ） (2024-10-07T17:35:10Z)
iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。 iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文参考訳（メタデータ） (2024-05-24T05:29:12Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文参考訳（メタデータ） (2024-01-03T16:43:47Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文参考訳（メタデータ） (2023-05-18T11:06:15Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)
Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文参考訳（メタデータ） (2020-06-02T06:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。