論文の概要: Scaling Zero-Shot Reference-to-Video Generation
- arxiv url: http://arxiv.org/abs/2512.06905v1
- Date: Sun, 07 Dec 2025 16:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.581168
- Title: Scaling Zero-Shot Reference-to-Video Generation
- Title(参考訳): ゼロショット参照ビデオ生成のスケーリング
- Authors: Zijian Zhou, Shikun Liu, Haozhe Liu, Haonan Qiu, Zhaochong An, Weiming Ren, Zhiheng Liu, Xiaoke Huang, Kam Woh Ng, Tian Xie, Xiao Han, Yuren Cong, Hang Li, Chuyan Zhu, Aditya Patel, Tao Xiang, Sen He,
- Abstract要約: 明示的なR2Vデータを必要としないスケーラブルなゼロショットフレームワークであるSaberを紹介します。
Saberはマスク付きトレーニング戦略と注意に基づくモデル設計を採用し、アイデンティティ一貫性と参照認識の表現を学習する。
OpenS2V-Evalベンチマークでは、R2Vデータで訓練された方法よりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 45.15099584926898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-to-video (R2V) generation aims to synthesize videos that align with a text prompt while preserving the subject identity from reference images. However, current R2V methods are hindered by the reliance on explicit reference image-video-text triplets, whose construction is highly expensive and difficult to scale. We bypass this bottleneck by introducing Saber, a scalable zero-shot framework that requires no explicit R2V data. Trained exclusively on video-text pairs, Saber employs a masked training strategy and a tailored attention-based model design to learn identity-consistent and reference-aware representations. Mask augmentation techniques are further integrated to mitigate copy-paste artifacts common in reference-to-video generation. Moreover, Saber demonstrates remarkable generalization capabilities across a varying number of references and achieves superior performance on the OpenS2V-Eval benchmark compared to methods trained with R2V data.
- Abstract(参考訳): R2V(Reference-to-Video)生成は、参照画像から被写体を保存しながら、テキストプロンプトと整合するビデオを合成することを目的としている。
しかし、現在のR2V法は、高コストでスケールが難しい明示的な参照画像-ビデオテキスト三重項に依存しているため、障害となる。
明示的なR2Vデータを必要としないスケーラブルなゼロショットフレームワークであるSaberを導入することで、このボトルネックを回避しています。
Saberはビデオテキストペアを専門にトレーニングし、マスク付きトレーニング戦略と注意に基づくモデル設計を採用して、アイデンティティ一貫性と参照認識の表現を学習する。
マスク増強技術は、レファレンス・トゥ・ビデオ生成に共通するコピー・ペースト・アーティファクトを緩和するためにさらに統合される。
さらに、Saberは様々な参照をまたいだ顕著な一般化機能を示し、OpenS2V-EvalベンチマークではR2Vデータで訓練されたメソッドよりも優れたパフォーマンスを実現している。
関連論文リスト
- MV-S2V: Multi-View Subject-Consistent Video Generation [14.479120381560621]
本稿では,Multi-View S2V (MV-S2V) タスクを提案する。
MV-S2Vは、複数の参照ビューからビデオを合成し、3Dレベルの被写体一貫性を強制する。
本フレームワークは,マルチビュー参照画像と高品質な視覚出力により,優れた3次元オブジェクト整合性を実現する。
論文 参考訳(メタデータ) (2026-01-25T09:02:33Z) - ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation [36.29956463871403]
テキスト・ツー・ビデオ(T2V)生成は急速に進歩しているが、シーン間で一貫した文字のアイデンティティを維持することは大きな課題である。
テキストと単一の参照画像から文字一貫性のある映像を生成するコンテキスト対応拡散フレームワークである textbfContextAnyone を提案する。
提案手法は,参照画像を共同で再構成し,新しいビデオフレームを生成する。
論文 参考訳(メタデータ) (2025-12-08T09:12:18Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - RISE-T2V: Rephrasing and Injecting Semantics with LLM for Expansive Text-to-Video Generation [19.127189099122244]
RISE-T2Vを導入し,迅速な言い換えと意味的特徴抽出のプロセスを一つのステップに統合する。
本稿では,テキスト隠れ状態を利用した拡散モデルを実現するRephrasing Adapterという革新的なモジュールを提案する。
論文 参考訳(メタデータ) (2025-11-06T12:42:03Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement [58.85593321752693]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、参照対象画像とテキストプロンプトの両方に忠実なビデオを生成する。
本稿では,映像記述と参照画像のセマンティックギャップを橋渡しする,トレーニングフリープロンプト,イメージ,ガイダンス拡張フレームワークを提案する。
ACM Multimedia 2025 Identity-Preserving Video Generation Challengeで優勝した。
論文 参考訳(メタデータ) (2025-09-01T11:03:13Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [77.59074909960913]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。