論文の概要: Scaling Zero-Shot Reference-to-Video Generation
- arxiv url: http://arxiv.org/abs/2512.06905v1
- Date: Sun, 07 Dec 2025 16:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.581168
- Title: Scaling Zero-Shot Reference-to-Video Generation
- Title(参考訳): ゼロショット参照ビデオ生成のスケーリング
- Authors: Zijian Zhou, Shikun Liu, Haozhe Liu, Haonan Qiu, Zhaochong An, Weiming Ren, Zhiheng Liu, Xiaoke Huang, Kam Woh Ng, Tian Xie, Xiao Han, Yuren Cong, Hang Li, Chuyan Zhu, Aditya Patel, Tao Xiang, Sen He,
- Abstract要約: 明示的なR2Vデータを必要としないスケーラブルなゼロショットフレームワークであるSaberを紹介します。
Saberはマスク付きトレーニング戦略と注意に基づくモデル設計を採用し、アイデンティティ一貫性と参照認識の表現を学習する。
OpenS2V-Evalベンチマークでは、R2Vデータで訓練された方法よりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 45.15099584926898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-to-video (R2V) generation aims to synthesize videos that align with a text prompt while preserving the subject identity from reference images. However, current R2V methods are hindered by the reliance on explicit reference image-video-text triplets, whose construction is highly expensive and difficult to scale. We bypass this bottleneck by introducing Saber, a scalable zero-shot framework that requires no explicit R2V data. Trained exclusively on video-text pairs, Saber employs a masked training strategy and a tailored attention-based model design to learn identity-consistent and reference-aware representations. Mask augmentation techniques are further integrated to mitigate copy-paste artifacts common in reference-to-video generation. Moreover, Saber demonstrates remarkable generalization capabilities across a varying number of references and achieves superior performance on the OpenS2V-Eval benchmark compared to methods trained with R2V data.
- Abstract(参考訳): R2V(Reference-to-Video)生成は、参照画像から被写体を保存しながら、テキストプロンプトと整合するビデオを合成することを目的としている。
しかし、現在のR2V法は、高コストでスケールが難しい明示的な参照画像-ビデオテキスト三重項に依存しているため、障害となる。
明示的なR2Vデータを必要としないスケーラブルなゼロショットフレームワークであるSaberを導入することで、このボトルネックを回避しています。
Saberはビデオテキストペアを専門にトレーニングし、マスク付きトレーニング戦略と注意に基づくモデル設計を採用して、アイデンティティ一貫性と参照認識の表現を学習する。
マスク増強技術は、レファレンス・トゥ・ビデオ生成に共通するコピー・ペースト・アーティファクトを緩和するためにさらに統合される。
さらに、Saberは様々な参照をまたいだ顕著な一般化機能を示し、OpenS2V-EvalベンチマークではR2Vデータで訓練されたメソッドよりも優れたパフォーマンスを実現している。
関連論文リスト
- TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [77.59074909960913]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。