論文の概要: From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors
- arxiv url: http://arxiv.org/abs/2602.21778v2
- Date: Fri, 27 Feb 2026 13:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 13:30:11.464842
- Title: From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors
- Title(参考訳): 静的からダイナミクスへ:遅延遷移プリミティブによる物理を意識した画像編集
- Authors: Liangbing Zhao, Le Zhuo, Sayak Paul, Hongsheng Li, Mohamed Elhoseiny,
- Abstract要約: テキスト-視覚的二重思考機構を備えたエンドツーエンドフレームワークであるPhysicalcEditを紹介する。
実験の結果、PhysicEditはQwen-Image-Editよりも5.9%、知識ベース編集では10.1%改善していることがわかった。
- 参考スコア(独自算出の注目度): 62.96515611323478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.
- Abstract(参考訳): インストラクションに基づく画像編集はセマンティックアライメントにおいて顕著な成功を収めてきたが、屈折や材料変形といった複雑な因果ダイナミクスを伴う編集において、最先端のモデルでは物理的に妥当な結果が得られないことが多い。
この制限は、画像ペア間の離散マッピングとして編集を扱う支配的なパラダイムであり、境界条件のみを提供し、遷移ダイナミクスを未特定のまま残すものである。
そこで我々は物理認識編集を予測的物理状態遷移として再構成し,2段階フィルタリングと制約認識アノテーションパイプラインを用いて構築された38Kトランジショントラジェクトリからなる大規模ビデオベースデータセットであるPhysicTran38Kを導入する。
そこで本研究では,テキスト-視覚的二重思考機構を備えたエンドツーエンドフレームワークであるPhysicalcEditを提案する。
物理接地推論のための冷凍Qwen2.5-VLと学習可能な遷移クエリを組み合わせることで、拡散バックボーンへのタイムステップ適応的な視覚的ガイダンスを提供する。
実験の結果、PhysicEditはQwen-Image-Editよりも5.9%改善し、知識を基盤とした編集では10.1%向上し、オープンソース手法の新たな最先端を築きつつ、主要なプロプライエタリなモデルとの競争を維持した。
関連論文リスト
- InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models [17.680767010203308]
InEdit-Benchは画像編集における中間経路の推論に特化した最初の評価ベンチマークである。
InEdit-Benchは、状態遷移、動的プロセス、時間的シーケンス、科学的シミュレーションの4つの基本的なタスクカテゴリをカバーする、細心の注意を要するテストケースで構成されている。
InEdit-Benchにおける14の代表的な画像編集モデルの総合的な評価により,この領域の重大な欠点と広範な欠点が明らかとなった。
論文 参考訳(メタデータ) (2026-03-04T02:24:43Z) - ChordEdit: One-Step Low-Energy Transport for Image Editing [8.517302920663932]
ChordEditは、高忠実度ワンステップ編集を容易にするモデル非依存、トレーニング不要、反転不要な方法である。
我々は、ソースとターゲットの分布間の転送問題として編集をリキャストし、ソースとターゲットのテキストプロンプトで定義する。
理論的に基礎と実験的に検証されたアプローチにより、ChordEditは高速で軽量で正確な編集を行うことができる。
論文 参考訳(メタデータ) (2026-02-22T07:40:50Z) - I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - MotionEdit: Benchmarking and Learning Motion-Centric Image Editing [81.28392925790568]
動き中心の画像編集のための新しいデータセットであるMotionEditを紹介する。
MotionEditは、連続ビデオから抽出されたリアルな動き変換を描写した高忠実な画像ペアを提供する。
本研究では,入力画像とモデル編集画像間の動きの流れが地中動とどのように一致しているかに基づいて,動きアライメントの報酬を計算するためにMotionNFTを提案する。
論文 参考訳(メタデータ) (2025-12-11T04:53:58Z) - Are Image-to-Video Models Good Zero-Shot Image Editors? [39.10187156757937]
命令駆動画像編集のための事前学習された画像間拡散モデルを再利用した、チューニング不要なフレームワークIF-Editを紹介する。
IF-Editは3つの重要な課題に対処する。
論文 参考訳(メタデータ) (2025-11-24T18:59:54Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - Follow Your Motion: A Generic Temporal Consistency Portrait Editing Framework with Trajectory Guidance [27.1886214162329]
Follow Your Motionは、肖像画編集における時間的一貫性を維持するための一般的なフレームワークである。
音声頭部編集における微粒化表現の時間的整合性を維持するため,動的再重み付き注意機構を提案する。
論文 参考訳(メタデータ) (2025-03-28T08:18:05Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。