論文の概要: Are Image-to-Video Models Good Zero-Shot Image Editors?
- arxiv url: http://arxiv.org/abs/2511.19435v1
- Date: Mon, 24 Nov 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.389242
- Title: Are Image-to-Video Models Good Zero-Shot Image Editors?
- Title(参考訳): イメージ・ツー・ビデオはゼロショット画像エディタとして優れているか?
- Authors: Zechuan Zhang, Zhenyuan Chen, Zongxin Yang, Yi Yang,
- Abstract要約: 命令駆動画像編集のための事前学習された画像間拡散モデルを再利用した、チューニング不要なフレームワークIF-Editを紹介する。
IF-Editは3つの重要な課題に対処する。
- 参考スコア(独自算出の注目度): 39.10187156757937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale video diffusion models show strong world simulation and temporal reasoning abilities, but their use as zero-shot image editors remains underexplored. We introduce IF-Edit, a tuning-free framework that repurposes pretrained image-to-video diffusion models for instruction-driven image editing. IF-Edit addresses three key challenges: prompt misalignment, redundant temporal latents, and blurry late-stage frames. It includes (1) a chain-of-thought prompt enhancement module that transforms static editing instructions into temporally grounded reasoning prompts; (2) a temporal latent dropout strategy that compresses frame latents after the expert-switch point, accelerating denoising while preserving semantic and temporal coherence; and (3) a self-consistent post-refinement step that sharpens late-stage frames using a short still-video trajectory. Experiments on four public benchmarks, covering non-rigid editing, physical and temporal reasoning, and general instruction edits, show that IF-Edit performs strongly on reasoning-centric tasks while remaining competitive on general-purpose edits. Our study provides a systematic view of video diffusion models as image editors and highlights a simple recipe for unified video-image generative reasoning.
- Abstract(参考訳): 大規模なビデオ拡散モデルでは、強い世界シミュレーションと時間的推論能力を示すが、ゼロショット画像エディターとしての使用は未定である。
命令駆動画像編集のための事前学習された画像間拡散モデルを再利用した、チューニング不要なフレームワークIF-Editを紹介する。
IF-Editは3つの重要な課題に対処する。
1)静的な編集指示を時間的根拠の推論プロンプトに変換するチェーン・オブ・シークレット・プロンプト・エンハンスメントモジュール,(2)専門家・スウィッチポイントの後にフレーム潜在者を圧縮する時間的遅延ドロップアウト戦略,2)意味と時間的コヒーレンスを保ちながらデノイングを加速する,(3)短い静止ビデオ軌道を用いて後期フレームをシャープする自己整合後修正ステップを含む。
非厳密な編集、物理的および時間的推論、一般的な命令編集を含む4つの公開ベンチマークの実験は、IF-Editが汎用的な編集に競争力を維持しながら、推論中心のタスクに強く依存していることを示している。
本研究は,映像拡散モデルを画像エディタとして体系的に把握し,映像画像生成推論を統一するための簡単なレシピを明らかにする。
関連論文リスト
- FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。
IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。
本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文 参考訳(メタデータ) (2025-01-08T07:52:12Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。