論文の概要: From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors
- arxiv url: http://arxiv.org/abs/2602.21778v1
- Date: Wed, 25 Feb 2026 10:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.802225
- Title: From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors
- Title(参考訳): 静的からダイナミクスへ:遅延遷移プリミティブによる物理を意識した画像編集
- Authors: Liangbing Zhao, Le Zhuo, Sayak Paul, Hongsheng Li, Mohamed Elhoseiny,
- Abstract要約: テキスト-視覚的二重思考機構を備えたエンドツーエンドフレームワークであるPhysicalcEditを紹介する。
実験の結果、PhysicEditはQwen-Image-Editよりも5.9%、知識ベース編集では10.1%改善していることがわかった。
- 参考スコア(独自算出の注目度): 62.96515611323478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.
- Abstract(参考訳): インストラクションに基づく画像編集はセマンティックアライメントにおいて顕著な成功を収めてきたが、屈折や材料変形といった複雑な因果ダイナミクスを伴う編集において、最先端のモデルでは物理的に妥当な結果が得られないことが多い。
この制限は、画像ペア間の離散マッピングとして編集を扱う支配的なパラダイムであり、境界条件のみを提供し、遷移ダイナミクスを未特定のまま残すものである。
そこで我々は物理認識編集を予測的物理状態遷移として再構成し,2段階フィルタリングと制約認識アノテーションパイプラインを用いて構築された38Kトランジショントラジェクトリからなる大規模ビデオベースデータセットであるPhysicTran38Kを導入する。
そこで本研究では,テキスト-視覚的二重思考機構を備えたエンドツーエンドフレームワークであるPhysicalcEditを提案する。
物理接地推論のための冷凍Qwen2.5-VLと学習可能な遷移クエリを組み合わせることで、拡散バックボーンへのタイムステップ適応的な視覚的ガイダンスを提供する。
実験の結果、PhysicEditはQwen-Image-Editよりも5.9%改善し、知識を基盤とした編集では10.1%向上し、オープンソース手法の新たな最先端を築きつつ、主要なプロプライエタリなモデルとの競争を維持した。
関連論文リスト
- ChordEdit: One-Step Low-Energy Transport for Image Editing [8.517302920663932]
ChordEditは、高忠実度ワンステップ編集を容易にするモデル非依存、トレーニング不要、反転不要な方法である。
我々は、ソースとターゲットの分布間の転送問題として編集をリキャストし、ソースとターゲットのテキストプロンプトで定義する。
理論的に基礎と実験的に検証されたアプローチにより、ChordEditは高速で軽量で正確な編集を行うことができる。
論文 参考訳(メタデータ) (2026-02-22T07:40:50Z) - MotionEdit: Benchmarking and Learning Motion-Centric Image Editing [81.28392925790568]
動き中心の画像編集のための新しいデータセットであるMotionEditを紹介する。
MotionEditは、連続ビデオから抽出されたリアルな動き変換を描写した高忠実な画像ペアを提供する。
本研究では,入力画像とモデル編集画像間の動きの流れが地中動とどのように一致しているかに基づいて,動きアライメントの報酬を計算するためにMotionNFTを提案する。
論文 参考訳(メタデータ) (2025-12-11T04:53:58Z) - Are Image-to-Video Models Good Zero-Shot Image Editors? [39.10187156757937]
命令駆動画像編集のための事前学習された画像間拡散モデルを再利用した、チューニング不要なフレームワークIF-Editを紹介する。
IF-Editは3つの重要な課題に対処する。
論文 参考訳(メタデータ) (2025-11-24T18:59:54Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - Follow Your Motion: A Generic Temporal Consistency Portrait Editing Framework with Trajectory Guidance [27.1886214162329]
Follow Your Motionは、肖像画編集における時間的一貫性を維持するための一般的なフレームワークである。
音声頭部編集における微粒化表現の時間的整合性を維持するため,動的再重み付き注意機構を提案する。
論文 参考訳(メタデータ) (2025-03-28T08:18:05Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。