Fugu-MT 論文翻訳(概要): ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

論文の概要: ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

arxiv url: http://arxiv.org/abs/2510.04290v2
Date: Thu, 16 Oct 2025 18:00:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-20 13:49:08.745344
Title: ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation
Title（参考訳）: ChronoEdit: 画像編集と世界シミュレーションのための時間的推論を目指して
Authors: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling,
Abstract要約: ビデオ生成問題として画像編集を再構成するフレームワークであるChronoEditを紹介する。まずChronoEditは、入力された画像と編集された画像を、ビデオの最初のフレームと最後のフレームとして扱う。第2に、ChronoEditでは、推論時に明示的に編集を行う時間的推論ステージを導入している。
参考スコア（独自算出の注目度）: 74.33442027081651
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large generative models have greatly enhanced both image editing and in-context image generation, yet a critical gap remains in ensuring physical consistency, where edited objects must remain coherent. This capability is especially vital for world simulation related tasks. In this paper, we present ChronoEdit, a framework that reframes image editing as a video generation problem. First, ChronoEdit treats the input and edited images as the first and last frames of a video, allowing it to leverage large pretrained video generative models that capture not only object appearance but also the implicit physics of motion and interaction through learned temporal consistency. Second, ChronoEdit introduces a temporal reasoning stage that explicitly performs editing at inference time. Under this setting, target frame is jointly denoised with reasoning tokens to imagine a plausible editing trajectory that constrains the solution space to physically viable transformations. The reasoning tokens are then dropped after a few steps to avoid the high computational cost of rendering a full video. To validate ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for contexts that require physical consistency, and demonstrate that ChronoEdit surpasses state-of-the-art baselines in both visual fidelity and physical plausibility. Project page for code and models: https://research.nvidia.com/labs/toronto-ai/chronoedit
Abstract（参考訳）: 大規模な生成モデルにおける最近の進歩は、画像編集とテキスト内画像生成の両方を大幅に強化しているが、編集対象が一貫性を保たなければならない物理的整合性の確保には重要なギャップが残っている。この能力は、特に世界シミュレーションに関連するタスクに不可欠である。本稿では,映像編集を映像生成問題として再編成するフレームワークであるChronoEditを紹介する。まず、ChronoEditは入力された画像と編集された画像をビデオの最初のフレームと最後のフレームとして扱い、学習された時間的一貫性を通して、物体の外観だけでなく、暗黙の物理と相互作用をキャプチャする巨大な事前訓練されたビデオ生成モデルを活用することができる。第2に、ChronoEditでは、推論時に明示的に編集を行う時間的推論ステージを導入している。この設定の下では、ターゲットフレームは推論トークンと共同で識別され、解空間を物理的に実行可能な変換に制限する可算な編集軌跡を想像する。推論トークンは、フルビデオをレンダリングする高い計算コストを避けるために、数ステップ後に削除される。 ChronoEditを検証するために、PBench-Editを導入する。PBench-Editは、物理的な整合性を必要とするコンテキストに対する画像プロンプトペアの新しいベンチマークであり、ChronoEditが視覚的忠実度と物理的妥当性の両方において最先端のベースラインを超えることを実証する。コードとモデルのプロジェクトページ:https://research.nvidia.com/labs/toronto-ai/chronoedit

関連論文リスト

EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。 EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文参考訳（メタデータ） (2025-12-18T18:59:57Z)
Are Image-to-Video Models Good Zero-Shot Image Editors? [39.10187156757937]
命令駆動画像編集のための事前学習された画像間拡散モデルを再利用した、チューニング不要なフレームワークIF-Editを紹介する。 IF-Editは3つの重要な課題に対処する。
論文参考訳（メタデータ） (2025-11-24T18:59:54Z)
Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。 VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。 1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文参考訳（メタデータ） (2025-08-21T17:59:32Z)
Zero-to-Hero: Zero-Shot Initialization Empowering Reference-Based Video Appearance Editing [14.068418640316672]
本稿では,参照型ビデオ編集に焦点を当てたZero-to-Heroという新しい手法を提案する。これにより、まずアンカーフレームを編集し、ユーザーの要求を基準画像として満たし、その外観を他のフレーム間で一貫して伝播させることで実現される。我々は,従来提案されていた光フローや時間モジュールよりも頑健なアテンション機構を誘導するために,元のフレーム内での対応を活用している。
論文参考訳（メタデータ） (2025-05-29T06:10:16Z)
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。軽量のスパース制御エンコーダのみを使用して編集信号を注入する。従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文参考訳（メタデータ） (2025-01-14T16:09:16Z)
Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文参考訳（メタデータ） (2024-11-25T16:41:45Z)
RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video Editing [9.215070588761282]
本研究では,ゼロショット映像編集のためのアテンション制御方式であるRealCraftを提案する。新たな特徴注入にクロスアテンションを切り替え、編集対象の空間的注意を緩和することにより、局所的な形状の編集を実現する。提案するゼロショットアテンション制御方式を,様々なビデオで紹介し,形状,時間一貫性,パラメータフリーな編集方法を示した。
論文参考訳（メタデータ） (2023-12-19T22:33:42Z)
Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文参考訳（メタデータ） (2023-12-12T14:48:48Z)
RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文参考訳（メタデータ） (2023-08-11T12:17:24Z)
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文参考訳（メタデータ） (2023-06-14T19:15:49Z)
Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。 3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2020-07-03T02:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。