論文の概要: DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.12427v2
- Date: Tue, 20 May 2025 09:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.426216
- Title: DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model
- Title(参考訳): DragLoRA: 拡散モデルにおけるドラッグベース画像編集のためのLoRAアダプタのオンライン最適化
- Authors: Siwei Xia, Li Sun, Tiantian Sun, Qingli Li,
- Abstract要約: DragLoRAは、ドラッグベースの編集パイプラインにLoRAアダプタを統合する新しいフレームワークである。
DragLoRAはドラッグベース画像編集における制御精度と計算効率を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 14.144755955903634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drag-based editing within pretrained diffusion model provides a precise and flexible way to manipulate foreground objects. Traditional methods optimize the input feature obtained from DDIM inversion directly, adjusting them iteratively to guide handle points towards target locations. However, these approaches often suffer from limited accuracy due to the low representation ability of the feature in motion supervision, as well as inefficiencies caused by the large search space required for point tracking. To address these limitations, we present DragLoRA, a novel framework that integrates LoRA (Low-Rank Adaptation) adapters into the drag-based editing pipeline. To enhance the training of LoRA adapters, we introduce an additional denoising score distillation loss which regularizes the online model by aligning its output with that of the original model. Additionally, we improve the consistency of motion supervision by adapting the input features using the updated LoRA, giving a more stable and accurate input feature for subsequent operations. Building on this, we design an adaptive optimization scheme that dynamically toggles between two modes, prioritizing efficiency without compromising precision. Extensive experiments demonstrate that DragLoRA significantly enhances the control precision and computational efficiency for drag-based image editing. The Codes of DragLoRA are available at: https://github.com/Sylvie-X/DragLoRA.
- Abstract(参考訳): 事前訓練された拡散モデル内のドラッグベースの編集は、フォアグラウンドオブジェクトを操作する正確で柔軟な方法を提供する。
従来の方法では、DDIMのインバージョンから直接得られる入力機能を最適化し、それを反復的に調整して、ハンドルポイントを目標位置へ誘導する。
しかし、これらの手法は、動作監視における特徴の表現能力の低さや、点追跡に必要な大規模な探索空間によって生じる非効率さによって、限られた精度に悩まされることが多い。
これらの制限に対処するため、ドラッグベースの編集パイプラインにLoRA(Low-Rank Adaptation)アダプタを統合する新しいフレームワークであるDragLoRAを紹介します。
LoRAアダプタのトレーニングを強化するため,オンラインモデルの出力と元のモデルの出力を整列させることにより,オンラインモデルの規則化を図り,さらにデノジングスコアの蒸留損失を導入する。
さらに、更新されたLoRAを用いて入力特徴を適応させることにより、動作監視の整合性を改善し、その後の操作に対してより安定かつ正確な入力特徴を与える。
そこで我々は,2つのモードを動的に切り替える適応最適化方式を設計し,精度を損なうことなく効率を優先する。
DragLoRAはドラッグベース画像編集における制御精度と計算効率を大幅に向上することを示した。
DragLoRAのコードは、https://github.com/Sylvie-X/DragLoRAで入手できる。
関連論文リスト
- Low-rank Adaptation-based All-Weather Removal for Autonomous Navigation [29.309503214127016]
オールウェザー画像復元(AWIR)は、悪天候下での信頼性の高い自律航法に不可欠である。
AWIRモデルは、霧、雨、雪などの特定の気象条件に対応するために訓練されている。
そこで我々はLoRA (Lo-Rank Adaptation) を用いて、事前訓練された全天候モデルを新しい気象復旧タスクに効果的に適用することを提案する。
論文 参考訳(メタデータ) (2024-11-26T19:01:11Z) - LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement [5.162783756846019]
ファンデーションモデル(FM)は、タスク固有の微調整によって、多様なタスクにまたがる強力なパフォーマンスを実現する。
低ランク適応 (LoRA) のようなローランク適応 (LoRA) 手法は、少ないパラメータをチューニングするための低ランク行列を導入することで、このコストを削減する。
LoRA-FAIRは計算と通信の効率を維持し、最先端の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2024-11-22T14:19:01Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。