論文の概要: Video4Edit: Viewing Image Editing as a Degenerate Temporal Process
- arxiv url: http://arxiv.org/abs/2511.18131v1
- Date: Sat, 22 Nov 2025 17:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.642374
- Title: Video4Edit: Viewing Image Editing as a Degenerate Temporal Process
- Title(参考訳): Video4Edit: 画像編集を一時的なプロセスとして見る
- Authors: Xiaofan Li, Yanpeng Sun, Chenming Wu, Fan Duan, YuAn Wang, Weihao Bo, Yumeng Zhang, Dingkang Liang,
- Abstract要約: マルチモーダル基礎モデルは、命令駆動の画像生成と編集を真にクロスモーダルで協調的な体制に推進した。
我々は、時間モデリングのレンズを通してこの課題を再考する。
この視点は、ビデオ事前学習から単一フレームの進化を先取りし、非常にデータ効率のよい微調整体制を実現する。
- 参考スコア(独自算出の注目度): 24.8621496006791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We observe that recent advances in multimodal foundation models have propelled instruction-driven image generation and editing into a genuinely cross-modal, cooperative regime. Nevertheless, state-of-the-art editing pipelines remain costly: beyond training large diffusion/flow models, they require curating massive high-quality triplets of \{instruction, source image, edited image\} to cover diverse user intents. Moreover, the fidelity of visual replacements hinges on how precisely the instruction references the target semantics. We revisit this challenge through the lens of temporal modeling: if video can be regarded as a full temporal process, then image editing can be seen as a degenerate temporal process. This perspective allows us to transfer single-frame evolution priors from video pre-training, enabling a highly data-efficient fine-tuning regime. Empirically, our approach matches the performance of leading open-source baselines while using only about one percent of the supervision demanded by mainstream editing models.
- Abstract(参考訳): マルチモーダル基礎モデルの最近の進歩は、命令駆動の画像生成と編集を真にクロスモーダルな協調体制へと推進してきた。
大規模な拡散/フローモデルのトレーニング以外にも、多様なユーザの意図をカバーするために、{instruction, source image,Edited image\}の巨大な高品質な三つ子をキュレートする必要がある。
さらに、視覚的な置換の忠実さは、命令がターゲットのセマンティクスをどのように正確に参照するかにかかっている。
映像をフル・テンポラル・プロセスとみなすことができれば、画像編集は縮退したテンポラル・プロセスと見なすことができる。
この視点は、ビデオ事前学習から単一フレームの進化を先取りし、非常にデータ効率のよい微調整体制を実現する。
実験的に、我々のアプローチは主要なオープンソースベースラインのパフォーマンスに匹敵するが、主流の編集モデルによって要求される監督の約1%しか利用していない。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Training-Free Reward-Guided Image Editing via Trajectory Optimal Control [55.64204232819136]
トレーニング不要な報酬誘導画像編集のための新しいフレームワークを提案する。
提案手法は,既存のインバージョンベースのトレーニングフリーベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-30T06:34:37Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。