Fugu-MT 論文翻訳(概要): PhyEdit: Towards Real-World Object Manipulation via Physically-Grounded Image Editing

論文の概要: PhyEdit: Towards Real-World Object Manipulation via Physically-Grounded Image Editing

arxiv url: http://arxiv.org/abs/2604.07230v1
Date: Wed, 08 Apr 2026 15:53:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.618627
Title: PhyEdit: Towards Real-World Object Manipulation via Physically-Grounded Image Editing
Title（参考訳）: PhyEdit:物理領域の画像編集による現実世界のオブジェクト操作を目指して
Authors: Ruihang Xu, Dewei Zhou, Xiaolong Shen, Fan Ma, Yi Yang,
Abstract要約: 画像編集フレームワークであるPhyEditを開発した。このプラグアンドプレイ3Dとジョイント2D-3Dの監督を組み合わせることで,物理的精度と操作の整合性を効果的に向上する。ペア画像と奥行きアノテーションを備えた3次元オブジェクト操作のための実世界のデータセットであるRealManip-10Kを提案する。
参考スコア（独自算出の注目度）: 24.0524480042673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Achieving physically accurate object manipulation in image editing is essential for its potential applications in interactive world models. However, existing visual generative models often fail at precise spatial manipulation, resulting in incorrect scaling and positioning of objects. This limitation primarily stems from the lack of explicit mechanisms to incorporate 3D geometry and perspective projection. To achieve accurate manipulation, we develop PhyEdit, an image editing framework that leverages explicit geometric simulation as contextual 3D-aware visual guidance. By combining this plug-and-play 3D prior with joint 2D--3D supervision, our method effectively improves physical accuracy and manipulation consistency. To support this method and evaluate performance, we present a real-world dataset, RealManip-10K, for 3D-aware object manipulation featuring paired images and depth annotations. We also propose ManipEval, a benchmark with multi-dimensional metrics to evaluate 3D spatial control and geometric consistency. Extensive experiments show that our approach outperforms existing methods, including strong closed-source models, in both 3D geometric accuracy and manipulation consistency.
Abstract（参考訳）: 画像編集における物理的に正確なオブジェクト操作を実現することは、インタラクティブな世界モデルにおける潜在的な応用に不可欠である。しかし、既存の視覚生成モデルは、しばしば正確な空間操作で失敗し、オブジェクトの間違ったスケーリングと位置決めをもたらす。この制限は主に、3次元幾何学と遠近射影を組み込む明示的なメカニズムの欠如に起因している。正確な操作を実現するために,空間的幾何学的シミュレーションを文脈的3次元視覚ガイダンスとして活用する画像編集フレームワークであるPhyEditを開発した。このプラグアンドプレイ3Dとジョイント2D-3Dの監督を組み合わせることで,物理的精度と操作の整合性を効果的に向上する。この手法をサポートし,性能評価を行うために,ペア画像と深度アノテーションを含む3次元オブジェクト操作のための実世界のデータセットであるRealManip-10Kを提案する。また,3次元空間制御と幾何整合性を評価するために,多次元メトリクスを用いたベンチマークであるManipEvalを提案する。大規模な実験により,我々の手法は3次元の幾何精度と操作整合性の両方において,強力なクローズドソースモデルを含む既存の手法よりも優れていることが示された。

関連論文リスト

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文参考訳（メタデータ） (2026-02-27T08:54:20Z)
Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation [34.92056161129864]
Ctrl&Shiftは3次元表現を明示せずに幾何一貫性のあるオブジェクト操作を実現するためのエンドツーエンド拡散フレームワークである。我々の重要な洞察は、操作を2つの段階に分解することであり、オブジェクトの除去と、明示的なカメラポーズ制御の下での参照誘導塗装、および両者を統合拡散プロセス内にエンコードすることである。我々の知る限り、これは、明示的な3Dモデリングに頼ることなく、きめ細かい幾何学的制御とオブジェクト操作の現実世界の一般化を統一する最初のフレームワークである。
論文参考訳（メタデータ） (2026-02-11T23:36:30Z)
Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine [83.0145525456509]
実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
論文参考訳（メタデータ） (2025-11-17T18:57:39Z)
3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文参考訳（メタデータ） (2025-06-11T09:18:36Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-03-09T12:22:46Z)
RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文参考訳（メタデータ） (2022-05-14T05:35:35Z)
AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。 2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文参考訳（メタデータ） (2021-08-25T08:50:06Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
Geometric Processing for Image-based 3D Object Modeling [2.6397379133308214]
本稿では,幾何処理の3つの主要構成要素の最先端手法について紹介する:(1)ジオレファレンス; 2)画像密度マッチング3)テクスチャマッピング。 3Dオブジェクト再構成ワークフローにおける画像の大部分が自動化された幾何処理は、現実的な3Dモデリングの重要な部分となっている。
論文参考訳（メタデータ） (2021-06-27T18:33:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。