論文の概要: First Frame Is the Place to Go for Video Content Customization
- arxiv url: http://arxiv.org/abs/2511.15700v1
- Date: Wed, 19 Nov 2025 18:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.949725
- Title: First Frame Is the Place to Go for Video Content Customization
- Title(参考訳): ビデオコンテンツをカスタマイズするFirst Frame
- Authors: Jingxi Chen, Zongxia Li, Zhichao Liu, Guangyao Shi, Xiyang Wu, Fuxiao Liu, Cornelia Fermuller, Brandon Y. Feng, Yiannis Aloimonos,
- Abstract要約: ビデオモデルでは、第1フレームを概念記憶バッファとして暗黙的に扱い、生成時に視覚的エンティティを格納し、後続の再利用を行う。
これは、参照ベースのビデオカスタマイズのためのビデオ生成モデルの強力で見落とされがちな機能を公開する。
- 参考スコア(独自算出の注目度): 27.645209756148095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.
- Abstract(参考訳): 最初のフレームは、ビデオ生成モデルでどのような役割を果たすのか?
伝統的に、それはビデオの空間的時間的出発点と見なされ、後のアニメーションのシードにすぎない。
ビデオモデルは、第1フレームを概念記憶バッファとして暗黙的に扱い、生成時に視覚的エンティティを格納し、後で再利用する。
この知見を活用することで、アーキテクチャの変更や大規模な微調整を伴わずに、20~50のトレーニング例のみを使用して、さまざまなシナリオで堅牢で一般化されたビデオコンテンツのカスタマイズを実現することが可能であることを示す。
これは、参照ベースのビデオカスタマイズのためのビデオ生成モデルの強力で見落とされがちな機能を公開する。
関連論文リスト
- Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文 参考訳(メタデータ) (2024-12-27T17:42:29Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。