論文の概要: RotationDrag: Point-based Image Editing with Rotated Diffusion Features
- arxiv url: http://arxiv.org/abs/2401.06442v1
- Date: Fri, 12 Jan 2024 08:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:11:50.500165
- Title: RotationDrag: Point-based Image Editing with Rotated Diffusion Features
- Title(参考訳): RotationDrag: 回転拡散機能付きポイントベース画像編集
- Authors: Minxing Luo, Wentao Cheng, Jian Yang
- Abstract要約: 本稿では,ユーザーが平面上で画像コンテンツを回転させる場合に,ポイントベースの画像編集性能を大幅に向上させるRotationDragを提案する。
本手法は, 回転した画像の特徴マップを利用して, より高精度にポイントをハンドリングする。
徹底的なユーザスタディは、ユーザが達成しようとする面内回転を実現する上で、優れた能力を示している。
- 参考スコア(独自算出の注目度): 15.356670100771803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A precise and user-friendly manipulation of image content while preserving
image fidelity has always been crucial to the field of image editing. Thanks to
the power of generative models, recent point-based image editing methods allow
users to interactively change the image content with high generalizability by
clicking several control points. But the above mentioned editing process is
usually based on the assumption that features stay constant in the motion
supervision step from initial to target points. In this work, we conduct a
comprehensive investigation in the feature space of diffusion models, and find
that features change acutely under in-plane rotation. Based on this, we propose
a novel approach named RotationDrag, which significantly improves point-based
image editing performance when users intend to in-plane rotate the image
content. Our method tracks handle points more precisely by utilizing the
feature map of the rotated images, thus ensuring precise optimization and high
image fidelity. Furthermore, we build a in-plane rotation focused benchmark
called RotateBench, the first benchmark to evaluate the performance of
point-based image editing method under in-plane rotation scenario on both real
images and generated images. A thorough user study demonstrates the superior
capability in accomplishing in-plane rotation that users intend to achieve,
comparing the DragDiffusion baseline and other existing diffusion-based
methods. See the project page https://github.com/Tony-Lowe/RotationDrag for
code and experiment results.
- Abstract(参考訳): 画像の忠実性を保ちながら、画像内容の正確かつユーザフレンドリな操作は、画像編集の分野において常に不可欠である。
生成モデルのパワーにより、最近のポイントベースの画像編集手法により、ユーザーは複数の制御ポイントをクリックすることで、画像コンテンツを高一般化性でインタラクティブに変更することができる。
しかし、上記の編集プロセスは、通常、特徴が初期から目標への移動監督ステップで一定である、という仮定に基づいている。
本研究では,拡散モデルの特徴空間を包括的に調査し,平面内回転下で特徴が急激に変化することを示す。
そこで本研究では,ユーザが平面上で画像コンテンツを回転させる場合に,ポイントベースの画像編集性能を大幅に向上させるRotationDragという手法を提案する。
本手法は回転画像の特徴マップを利用してより高精度にハンドリングポイントを追跡し,高精度な最適化と高忠実度を実現する。
さらに,実画像と生成画像の両方の面内回転シナリオにおける点ベース画像編集法の性能評価を行う最初のベンチマークであるローテーションベンチと呼ばれる面内回転焦点ベンチマークを構築した。
本研究は,DragDiffusionベースラインと既存の拡散ベース手法を比較し,ユーザが実現しようとする面内回転を実現する上で,優れた能力を示すものである。
コードと実験結果はプロジェクトページhttps://github.com/Tony-Lowe/RotationDragを参照してください。
関連論文リスト
- Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - Towards Understanding Cross and Self-Attention in Stable Diffusion for
Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。
深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。
対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-03-06T03:32:56Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - FreeDrag: Feature Dragging for Reliable Point-based Image Editing [17.837570645460964]
我々は、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。
FreeDragには、アダプティブ更新によるテンプレート機能と、バックトラックによるライン検索という、2つの重要な設計が含まれている。
提案手法は既存の手法よりも優れており,様々な複雑なシナリオにおいても信頼性の高い点ベースの編集が可能である。
論文 参考訳(メタデータ) (2023-07-10T16:37:46Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Deep Rotation Correction without Angle Prior [57.76737888499145]
我々は,高コンテンツ忠実度で傾きを自動的に補正する,回転補正という新しい実用的タスクを提案する。
このタスクは画像編集アプリケーションに簡単に統合でき、ユーザーは手動操作なしで回転した画像を修正できる。
我々はニューラルネットワークを利用して、傾斜した画像を知覚的に水平に歪めることができる光学フローを予測する。
論文 参考訳(メタデータ) (2022-07-07T02:46:27Z) - RoRD: Rotation-Robust Descriptors and Orthographic Views for Local
Feature Matching [32.10261486751993]
本稿では,データ拡張と視点投影による不変記述子の学習を組み合わせる新しい枠組みを提案する。
提案手法の有効性をポーズ推定や視覚的位置認識などの重要課題に対して評価する。
論文 参考訳(メタデータ) (2021-03-15T17:40:25Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。