論文の概要: VPG: Visual Prefix Guidance for Autoregressive Image and Video Generation
- arxiv url: http://arxiv.org/abs/2605.30317v1
- Date: Thu, 28 May 2026 17:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.653349
- Title: VPG: Visual Prefix Guidance for Autoregressive Image and Video Generation
- Title(参考訳): VPG: 自動回帰画像とビデオ生成のためのビジュアルプリフィックスガイダンス
- Authors: Xinyao Liao, Qiyuan He, Yicong Li, Jiayin Zhu, Xiaoye Qu, Wei Wei, Angela Yao,
- Abstract要約: ビジュアル・プレフィックス・ガイダンス(英語: Visual Prefix Guidance, VPG)は、自動回帰画像とビデオ生成のためのトレーニング不要な推論時間誘導手法である。
VPGは、生成されたプレフィックスの下のモデルの出力と、劣化したプレフィックスの下の出力とを対比することにより、次のステップ予測を改善する。
- 参考スコア(独自算出の注目度): 61.564370002191744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive image and video generators are trained with teacher-forced histories but must sample from their own generated prefixes at inference time, making them vulnerable to exposure bias and prefix drift. Existing remedies either modify training or apply sampling-time guidance aimed primarily at external semantic conditions, such as class labels or text prompts, rather than testing whether a next-step prediction provides strong posterior support for the generated prefix itself. We propose Visual Prefix Guidance (VPG), a training-free inference-time guidance method for autoregressive image and video generation. VPG improves next-step prediction by contrasting the model's output under the generated prefix with its output under a corrupted prefix, then extrapolating logits toward candidates that strengthen the posterior support of the generated prefix. Across class-conditional image generation with VAR, text-to-image generation with Infinity, and text-to-video generation with InfinityStar, VPG improves generation quality without retraining the base model, reducing FID on VAR by 0.36 on average and improving benchmark performance on both image and video generation.
- Abstract(参考訳): 自己回帰画像とビデオジェネレータは教師力の履歴で訓練されるが、推論時に生成されたプレフィックスからサンプリングする必要があるため、露出バイアスやプレフィックスドリフトに弱い。
既存の改善策は、トレーニングを変更するか、クラスラベルやテキストプロンプトなど、主に外部のセマンティックな条件を対象としたサンプリングタイムガイダンスを適用するかのいずれかで、次のステップの予測が生成されたプレフィックス自体に対して強力な後続サポートを提供するかどうかをテストする。
本稿では,自動回帰画像とビデオ生成のためのトレーニング不要な推論時間誘導手法であるVisual Prefix Guidance (VPG)を提案する。
VPGは、生成したプレフィックスの下のモデルの出力と、劣化したプレフィックスの下の出力とを比較して、生成したプレフィックスの後方サポートを強化する候補に対するロジットを外挿することで、次のステップ予測を改善する。
VARによるクラス条件画像生成、InfinityStarによるテキスト・ツー・イメージ生成、InfinityStarによるテキスト・ツー・ビデオ生成、VPGはベースモデルを再トレーニングすることなく生成品質を改善し、VAR上のFIDを平均0.36削減し、画像およびビデオ生成におけるベンチマーク性能を向上させる。
関連論文リスト
- CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning [65.10059440725041]
視覚言語モデル(VLM)は画像キャプション、視覚的質問応答、視覚的推論において顕著な進歩を遂げている。
ヴィジュアル言語を誤用する傾向があり、しばしば過度に汎用的あるいは幻覚的な記述を生み出している。
既存のアプローチでは、コストがかかる大規模アノテートデータセットのインストラクションチューニングと、キャプションリファインメントのための複雑なテストタイムフレームワークによって、この問題に対処している。
本研究では,サイクル一貫性のレンズを用いて,画像テキストのアライメントを再考する。
論文 参考訳(メタデータ) (2026-03-18T20:57:31Z) - Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。
本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文 参考訳(メタデータ) (2025-12-24T07:07:08Z) - More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models [53.98725993420285]
生成深度推定法は、事前訓練されたテキスト-画像拡散モデルに格納されたリッチな視覚的先行情報を利用する。
本稿では,画像生成と深度推定の統一モデルであるMERGEを紹介する。
論文 参考訳(メタデータ) (2025-10-27T17:44:56Z) - Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement [58.85593321752693]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、参照対象画像とテキストプロンプトの両方に忠実なビデオを生成する。
本稿では,映像記述と参照画像のセマンティックギャップを橋渡しする,トレーニングフリープロンプト,イメージ,ガイダンス拡張フレームワークを提案する。
ACM Multimedia 2025 Identity-Preserving Video Generation Challengeで優勝した。
論文 参考訳(メタデータ) (2025-09-01T11:03:13Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。