論文の概要: DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.12427v2
- Date: Tue, 20 May 2025 09:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.426216
- Title: DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model
- Title(参考訳): DragLoRA: 拡散モデルにおけるドラッグベース画像編集のためのLoRAアダプタのオンライン最適化
- Authors: Siwei Xia, Li Sun, Tiantian Sun, Qingli Li,
- Abstract要約: DragLoRAは、ドラッグベースの編集パイプラインにLoRAアダプタを統合する新しいフレームワークである。
DragLoRAはドラッグベース画像編集における制御精度と計算効率を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 14.144755955903634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drag-based editing within pretrained diffusion model provides a precise and flexible way to manipulate foreground objects. Traditional methods optimize the input feature obtained from DDIM inversion directly, adjusting them iteratively to guide handle points towards target locations. However, these approaches often suffer from limited accuracy due to the low representation ability of the feature in motion supervision, as well as inefficiencies caused by the large search space required for point tracking. To address these limitations, we present DragLoRA, a novel framework that integrates LoRA (Low-Rank Adaptation) adapters into the drag-based editing pipeline. To enhance the training of LoRA adapters, we introduce an additional denoising score distillation loss which regularizes the online model by aligning its output with that of the original model. Additionally, we improve the consistency of motion supervision by adapting the input features using the updated LoRA, giving a more stable and accurate input feature for subsequent operations. Building on this, we design an adaptive optimization scheme that dynamically toggles between two modes, prioritizing efficiency without compromising precision. Extensive experiments demonstrate that DragLoRA significantly enhances the control precision and computational efficiency for drag-based image editing. The Codes of DragLoRA are available at: https://github.com/Sylvie-X/DragLoRA.
- Abstract(参考訳): 事前訓練された拡散モデル内のドラッグベースの編集は、フォアグラウンドオブジェクトを操作する正確で柔軟な方法を提供する。
従来の方法では、DDIMのインバージョンから直接得られる入力機能を最適化し、それを反復的に調整して、ハンドルポイントを目標位置へ誘導する。
しかし、これらの手法は、動作監視における特徴の表現能力の低さや、点追跡に必要な大規模な探索空間によって生じる非効率さによって、限られた精度に悩まされることが多い。
これらの制限に対処するため、ドラッグベースの編集パイプラインにLoRA(Low-Rank Adaptation)アダプタを統合する新しいフレームワークであるDragLoRAを紹介します。
LoRAアダプタのトレーニングを強化するため,オンラインモデルの出力と元のモデルの出力を整列させることにより,オンラインモデルの規則化を図り,さらにデノジングスコアの蒸留損失を導入する。
さらに、更新されたLoRAを用いて入力特徴を適応させることにより、動作監視の整合性を改善し、その後の操作に対してより安定かつ正確な入力特徴を与える。
そこで我々は,2つのモードを動的に切り替える適応最適化方式を設計し,精度を損なうことなく効率を優先する。
DragLoRAはドラッグベース画像編集における制御精度と計算効率を大幅に向上することを示した。
DragLoRAのコードは、https://github.com/Sylvie-X/DragLoRAで入手できる。
関連論文リスト
- Reproducing DragDiffusion: Interactive Point-Based Editing with Diffusion Models [0.0]
DragDiffusionは、インタラクティブなポイントベースの画像編集のための拡散に基づく方法である。
この研究は、著者がリリースした実装とDragBenchベンチマークを用いたDragDiffusionの研究を示す。
論文 参考訳(メタデータ) (2026-02-12T20:40:43Z) - Towards Minimal Fine-Tuning of VLMs [59.01498204407219]
Image-LoRAは、トランスフォーマーベースの視覚言語モデルのための軽量パラメータ効率の良い微調整レシピである。
Image-LoRAは、視覚的なスパン内の注目層の値パスにのみ、低ランク適応を適用します。
トレーニング可能なパラメータが少なく、アダプタのみのトレーニング FLOP は少ないが、標準のLoRAの精度と一致または密接に対応している。
論文 参考訳(メタデータ) (2025-12-22T10:02:10Z) - Parameter-Efficient Fine-Tuning for HAR: Integrating LoRA and QLoRA into Transformer Models [0.2939891130492345]
低ランク適応(LoRA)と量子化LoRA(Quantized LoRA)は、人間の活動認識のためのフルモデル微調整に代わるスケーラブルな代替手段として検討されている。
LoRAは限られた監督下でも堅牢な性能を維持している。
QLoRAは、量子化によって凍結重量のメモリフットプリントを削減することで、これらの利点を拡張している。
論文 参考訳(メタデータ) (2025-12-19T14:12:43Z) - LoFA: Learning to Predict Personalized Priors for Fast Adaptation of Visual Generative Models [50.46815266062554]
Low-Rank Adaptation (LoRA) は、タスク固有のデータと長い最適化の要求のため、実用的ではない。
高速モデル適応のためのパーソナライズされた事前情報を効率的に予測する汎用フレームワークであるLoFAを提案する。
提案手法は,複数のタスクやユーザプロンプトにまたがる,数秒以内の高品質なパーソナライズ前処理を常に予測し,処理時間を要する従来のLoRAよりも優れています。
論文 参考訳(メタデータ) (2025-12-09T16:39:31Z) - DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing [19.031261008813644]
この研究は、DragFlowと呼ばれるドラッグベースの編集にFLUXのリッチさを効果的に活用する最初のフレームワークを提案する。
この制限を克服するため、DragFlowでは、アフィン変換がよりリッチで一貫性のある機能管理を可能にする、リージョンベースの編集パラダイムを導入している。
DragBench-DRとReD Benchの実験は、DragFlowがポイントベースとリージョンベースの両方のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-10-02T17:39:13Z) - Zero-Shot Adaptation of Parameter-Efficient Fine-Tuning in Diffusion Models [48.22550575107633]
テキストと画像の拡散モデルにおいてパラメータ効率の良い微調整をゼロショットで適用できるProLoRAを導入する。
ProLoRAは、トレーニングデータを追加せずに、ソースからターゲットモデルに事前訓練された低ランク調整を転送する。
論文 参考訳(メタデータ) (2025-05-29T20:37:04Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Low-rank Adaptation-based All-Weather Removal for Autonomous Navigation [29.309503214127016]
オールウェザー画像復元(AWIR)は、悪天候下での信頼性の高い自律航法に不可欠である。
AWIRモデルは、霧、雨、雪などの特定の気象条件に対応するために訓練されている。
そこで我々はLoRA (Lo-Rank Adaptation) を用いて、事前訓練された全天候モデルを新しい気象復旧タスクに効果的に適用することを提案する。
論文 参考訳(メタデータ) (2024-11-26T19:01:11Z) - LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement [5.162783756846019]
ファンデーションモデル(FM)は、タスク固有の微調整によって、多様なタスクにまたがる強力なパフォーマンスを実現する。
低ランク適応 (LoRA) のようなローランク適応 (LoRA) 手法は、少ないパラメータをチューニングするための低ランク行列を導入することで、このコストを削減する。
LoRA-FAIRは計算と通信の効率を維持し、最先端の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2024-11-22T14:19:01Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。