Fugu-MT 論文翻訳(概要): RotationDrag: Point-based Image Editing with Rotated Diffusion Features

論文の概要: RotationDrag: Point-based Image Editing with Rotated Diffusion Features

arxiv url: http://arxiv.org/abs/2401.06442v1
Date: Fri, 12 Jan 2024 08:24:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 20:11:50.500165
Title: RotationDrag: Point-based Image Editing with Rotated Diffusion Features
Title（参考訳）: RotationDrag: 回転拡散機能付きポイントベース画像編集
Authors: Minxing Luo, Wentao Cheng, Jian Yang
Abstract要約: 本稿では,ユーザーが平面上で画像コンテンツを回転させる場合に,ポイントベースの画像編集性能を大幅に向上させるRotationDragを提案する。本手法は, 回転した画像の特徴マップを利用して, より高精度にポイントをハンドリングする。徹底的なユーザスタディは、ユーザが達成しようとする面内回転を実現する上で、優れた能力を示している。
参考スコア（独自算出の注目度）: 15.356670100771803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A precise and user-friendly manipulation of image content while preserving image fidelity has always been crucial to the field of image editing. Thanks to the power of generative models, recent point-based image editing methods allow users to interactively change the image content with high generalizability by clicking several control points. But the above mentioned editing process is usually based on the assumption that features stay constant in the motion supervision step from initial to target points. In this work, we conduct a comprehensive investigation in the feature space of diffusion models, and find that features change acutely under in-plane rotation. Based on this, we propose a novel approach named RotationDrag, which significantly improves point-based image editing performance when users intend to in-plane rotate the image content. Our method tracks handle points more precisely by utilizing the feature map of the rotated images, thus ensuring precise optimization and high image fidelity. Furthermore, we build a in-plane rotation focused benchmark called RotateBench, the first benchmark to evaluate the performance of point-based image editing method under in-plane rotation scenario on both real images and generated images. A thorough user study demonstrates the superior capability in accomplishing in-plane rotation that users intend to achieve, comparing the DragDiffusion baseline and other existing diffusion-based methods. See the project page https://github.com/Tony-Lowe/RotationDrag for code and experiment results.
Abstract（参考訳）: 画像の忠実性を保ちながら、画像内容の正確かつユーザフレンドリな操作は、画像編集の分野において常に不可欠である。生成モデルのパワーにより、最近のポイントベースの画像編集手法により、ユーザーは複数の制御ポイントをクリックすることで、画像コンテンツを高一般化性でインタラクティブに変更することができる。しかし、上記の編集プロセスは、通常、特徴が初期から目標への移動監督ステップで一定である、という仮定に基づいている。本研究では,拡散モデルの特徴空間を包括的に調査し,平面内回転下で特徴が急激に変化することを示す。そこで本研究では,ユーザが平面上で画像コンテンツを回転させる場合に,ポイントベースの画像編集性能を大幅に向上させるRotationDragという手法を提案する。本手法は回転画像の特徴マップを利用してより高精度にハンドリングポイントを追跡し,高精度な最適化と高忠実度を実現する。さらに,実画像と生成画像の両方の面内回転シナリオにおける点ベース画像編集法の性能評価を行う最初のベンチマークであるローテーションベンチと呼ばれる面内回転焦点ベンチマークを構築した。本研究は,DragDiffusionベースラインと既存の拡散ベース手法を比較し,ユーザが実現しようとする面内回転を実現する上で,優れた能力を示すものである。コードと実験結果はプロジェクトページhttps://github.com/Tony-Lowe/RotationDragを参照してください。

関連論文リスト

Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文参考訳（メタデータ） (2025-07-31T07:36:00Z)
FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields [20.793887576117527]
幾何情報を利用してより正確でコヒーレントな変換を行うFlowDragを提案する。提案手法は,ユーザ定義のドラッグポイントに基づくメッシュ変形を誘導するエネルギー関数を用いて,画像から3次元メッシュを構築する。得られたメッシュの変位は2Dに投影され、UNetデノナイジングプロセスに組み込まれ、正確なハンド・ツー・ターゲットのポイントアライメントを可能にする。
論文参考訳（メタデータ） (2025-07-11T03:18:52Z)
SphereDrag: Spherical Geometry-Aware Panoramic Image Editing [50.0866506514989]
SphereDragは,球面形状の知識を利用した新しいパノラマ編集フレームワークである。具体的には、適応的再射(AR)は不連続性に対処するために適応的な球面回転を使い、GCTA(Great-circle trajectory adjust)は運動軌跡をより正確に追跡する。また、パノラマ編集ベンチマークであるPanoBenchを構築し、複数のオブジェクトと多様なスタイルを含む複雑な編集タスクを含む、標準化された評価フレームワークを提供する。
論文参考訳（メタデータ） (2025-06-13T15:13:09Z)
AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文参考訳（メタデータ） (2024-10-16T15:59:02Z)
Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner [28.939227214483953]
本稿では,レグレッションに基づくネットワークを用いて,画像のドラッグング過程におけるStyleGAN潜伏符号の変動パターンを学習する。提案手法は,画素レベルの粒度でのSOTA推論速度と画像編集性能を実現する。
論文参考訳（メタデータ） (2024-07-26T10:45:57Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。私たちのFastDragはDragBenchデータセットで検証されています。
論文参考訳（メタデータ） (2024-05-24T17:59:26Z)
LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文参考訳（メタデータ） (2024-05-22T15:14:00Z)
Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文参考訳（メタデータ） (2024-03-06T03:32:56Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
Deep Rotation Correction without Angle Prior [57.76737888499145]
我々は,高コンテンツ忠実度で傾きを自動的に補正する,回転補正という新しい実用的タスクを提案する。このタスクは画像編集アプリケーションに簡単に統合でき、ユーザーは手動操作なしで回転した画像を修正できる。我々はニューラルネットワークを利用して、傾斜した画像を知覚的に水平に歪めることができる光学フローを予測する。
論文参考訳（メタデータ） (2022-07-07T02:46:27Z)
Look here! A parametric learning based approach to redirect visual attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文参考訳（メタデータ） (2020-08-12T16:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。