論文の概要: A Diffusion-Based Framework for Occluded Object Movement
- arxiv url: http://arxiv.org/abs/2504.01873v1
- Date: Wed, 02 Apr 2025 16:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:14.940967
- Title: A Diffusion-Based Framework for Occluded Object Movement
- Title(参考訳): 拡散型物体運動フレームワーク
- Authors: Zheng-Peng Duan, Jiawei Zhang, Siyu Liu, Zheng Lin, Chun-Le Guo, Dongqing Zou, Jimmy Ren, Chongyi Li,
- Abstract要約: DiffOOM という名前の Occluded Object Movement 用に設計された拡散型フレームワークを提案する。
除染分岐は、背景色充満戦略と、継続的に更新されたオブジェクトマスクを利用して、対象オブジェクトの曖昧な部分を完成させることに集中する。
同時に、動作ブランチは、完了したオブジェクトを目標位置に置くために遅延最適化を採用し、ローカルテキスト条件のガイダンスを採用して、オブジェクトを新しい環境に適切に統合する。
- 参考スコア(独自算出の注目度): 39.6345172890042
- License:
- Abstract: Seamlessly moving objects within a scene is a common requirement for image editing, but it is still a challenge for existing editing methods. Especially for real-world images, the occlusion situation further increases the difficulty. The main difficulty is that the occluded portion needs to be completed before movement can proceed. To leverage the real-world knowledge embedded in the pre-trained diffusion models, we propose a Diffusion-based framework specifically designed for Occluded Object Movement, named DiffOOM. The proposed DiffOOM consists of two parallel branches that perform object de-occlusion and movement simultaneously. The de-occlusion branch utilizes a background color-fill strategy and a continuously updated object mask to focus the diffusion process on completing the obscured portion of the target object. Concurrently, the movement branch employs latent optimization to place the completed object in the target location and adopts local text-conditioned guidance to integrate the object into new surroundings appropriately. Extensive evaluations demonstrate the superior performance of our method, which is further validated by a comprehensive user study.
- Abstract(参考訳): シーン内でオブジェクトをシームレスに移動させることは、画像編集の一般的な要件であるが、既存の編集方法では依然として課題である。
特に実世界の画像では、閉塞状態はさらに困難を増す。
主な困難は、移動が進む前に閉塞した部分が完成する必要があることである。
事前学習した拡散モデルに埋め込まれた実世界の知識を活用するために,DiffOOM という Occluded Object Movement 用に特別に設計された拡散型フレームワークを提案する。
提案したDiffOOMは、オブジェクトの非閉塞と移動を同時に行う2つの並列分岐で構成されている。
除染分岐は、背景色充満戦略と、継続的に更新されたオブジェクトマスクを利用して、対象オブジェクトの曖昧な部分を完成させることに集中する。
同時に、動作ブランチは、完了したオブジェクトを目標位置に置くために遅延最適化を採用し、ローカルテキスト条件のガイダンスを採用して、オブジェクトを新しい環境に適切に統合する。
広範囲な評価は,本手法の優れた性能を示し,総合的なユーザスタディによってさらに検証された。
関連論文リスト
- Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion [29.770096013143117]
我々は、人中心画像合成タスクから、より一般的なオブジェクトシーン合成フレームワークまで、Affordanceの概念を拡張した。
マルチストリームアーキテクチャを用いてRGB画像と挿入マスクを同時に識別するMask-Aware Dual Diffusion (MADD)モデルを提案する。
提案手法は最先端の手法より優れており,画像に強い一般化性能を示す。
論文 参考訳(メタデータ) (2024-12-19T02:23:13Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - The Background Also Matters: Background-Aware Motion-Guided Objects
Discovery [2.6442319761949875]
本研究では,背景認識型動き誘導物体探索法を提案する。
我々は光学的流れから抽出した移動物体のマスクを活用し、学習機構を設計し、それらを真の前景に拡張する。
これにより、オブジェクト発見タスクとオブジェクト/非オブジェクト分離の合同学習が可能になる。
論文 参考訳(メタデータ) (2023-11-05T12:35:47Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Diffusion Model for Camouflaged Object Detection [2.592600158870236]
本稿では,拡散型物体検出のための拡散型フレームワーク diffCOD を提案する。
提案手法は,既存の11種類の最先端手法と比較して良好な性能を示す。
論文 参考訳(メタデータ) (2023-08-01T05:50:33Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - ReorientDiff: Diffusion Model based Reorientation for Object
Manipulation [18.95498618397922]
望ましい設定でオブジェクトを操作できることは、ロボットが様々な実践的な応用を完了するための基本的な要件である。
本稿では,拡散モデルに基づく手法を用いたリオリエンテーション計画手法であるReorientDiffを提案する。
提案手法は,YCBオブジェクトの集合と吸引グリップを用いて評価し,95.2%のシミュレーション成功率を示す。
論文 参考訳(メタデータ) (2023-02-28T00:08:38Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。