論文の概要: ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
- arxiv url: http://arxiv.org/abs/2506.03107v2
- Date: Wed, 11 Jun 2025 06:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.248548
- Title: ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
- Title(参考訳): ByteMorph:非リジッドモーションによるインストラクションガイド画像のベンチマーク
- Authors: Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang,
- Abstract要約: ByteMorphは命令ベースの画像編集のためのフレームワークで,非剛性な動きに重点を置いている。
ByteMorphは、Diffusion Transformer (DiT)上に構築された大規模なデータセット、ByteMorph-6M、強力なベースラインモデルから構成される。
どちらも、さまざまな環境、人格、対象カテゴリーにまたがる様々な種類の非剛体運動を捉えている。
- 参考スコア(独自算出の注目度): 48.20176284066248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing images with instructions to reflect non-rigid motions, camera viewpoint shifts, object deformations, human articulations, and complex interactions, poses a challenging yet underexplored problem in computer vision. Existing approaches and datasets predominantly focus on static scenes or rigid transformations, limiting their capacity to handle expressive edits involving dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive framework for instruction-based image editing with an emphasis on non-rigid motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher. ByteMorph-6M includes over 6 million high-resolution image editing pairs for training, along with a carefully curated evaluation benchmark ByteMorph-Bench. Both capture a wide variety of non-rigid motion types across diverse environments, human figures, and object categories. The dataset is constructed using motion-guided data generation, layered compositing techniques, and automated captioning to ensure diversity, realism, and semantic coherence. We further conduct a comprehensive evaluation of recent instruction-based image editing methods from both academic and commercial domains.
- Abstract(参考訳): 非厳密な動き、カメラの視点シフト、物体の変形、人間の調音、複雑な相互作用を反映した画像の編集は、コンピュータビジョンにおいて困難だが未解決の問題を引き起こす。
既存のアプローチとデータセットは主に静的なシーンや堅固な変換に重点を置いており、動的な動きを含む表現力のある編集を扱う能力に制限されている。
このギャップに対処するために,非剛性動作を重視した命令ベースの画像編集のための総合的なフレームワークByteMorphを紹介した。
ByteMorph は大規模なデータセット ByteMorph-6M と Diffusion Transformer (DiT) 上に構築された強力なベースラインモデル ByteMorpher で構成されている。
ByteMorph-6Mには600万以上の高解像度画像編集ペアと、慎重にキュレートされた評価ベンチマークByteMorph-Benchが含まれている。
どちらも、さまざまな環境、人格、対象カテゴリーにまたがる様々な種類の非剛体運動を捉えている。
このデータセットは、多様性、リアリズム、セマンティックコヒーレンスを保証するために、モーションガイド付きデータ生成、レイヤー合成技術、自動キャプションを使用して構築される。
さらに,学術領域と商業領域の両方から,最新の命令ベースの画像編集手法を総合的に評価する。
関連論文リスト
- ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - Instruction-based Image Manipulation by Watching How Things Move [35.44993722444448]
命令ベースの複雑な操作が可能なモデルであるInstructMoveをトレーニングする新しいデータセットを作成します。
本モデルでは,ポーズの調整,要素の並べ替え,カメラ視点の変更などのタスクにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2024-12-16T18:56:17Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。