論文の概要: Localize, Understand, Collaborate: Semantic-Aware Dragging via Intention Reasoner
- arxiv url: http://arxiv.org/abs/2406.00432v2
- Date: Tue, 22 Oct 2024 07:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:33.145178
- Title: Localize, Understand, Collaborate: Semantic-Aware Dragging via Intention Reasoner
- Title(参考訳): ローカライズ・アンダービュート・コラボレート:インテンション・リゾナーによるセマンティック・アウェア・ドラッグング
- Authors: Xing Cui, Peipei Li, Zekun Li, Xuannan Liu, Yueying Zou, Zhaofeng He,
- Abstract要約: 現在の手法では、この問題をポイントドラッグを通じて"ドラッグする方法"を自動学習するものとしてモデル化するのが一般的である。
我々はLucidDragを提案する。これは"ドラッグする方法"から"どうあるべきか"パラダイムに焦点を移すものだ。
- 参考スコア(独自算出の注目度): 8.310002338000954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flexible and accurate drag-based editing is a challenging task that has recently garnered significant attention. Current methods typically model this problem as automatically learning "how to drag" through point dragging and often produce one deterministic estimation, which presents two key limitations: 1) Overlooking the inherently ill-posed nature of drag-based editing, where multiple results may correspond to a given input, as illustrated in Fig.1; 2) Ignoring the constraint of image quality, which may lead to unexpected distortion. To alleviate this, we propose LucidDrag, which shifts the focus from "how to drag" to "what-then-how" paradigm. LucidDrag comprises an intention reasoner and a collaborative guidance sampling mechanism. The former infers several optimal editing strategies, identifying what content and what semantic direction to be edited. Based on the former, the latter addresses "how to drag" by collaboratively integrating existing editing guidance with the newly proposed semantic guidance and quality guidance. Specifically, semantic guidance is derived by establishing a semantic editing direction based on reasoned intentions, while quality guidance is achieved through classifier guidance using an image fidelity discriminator. Both qualitative and quantitative comparisons demonstrate the superiority of LucidDrag over previous methods.
- Abstract(参考訳): 柔軟で正確なドラッグベースの編集は、最近大きな注目を集めた課題である。
現在の手法では、この問題をポイントドラッグを通じて自動的に"ドラッグする方法"を学習し、決定論的推定を1つ生成するのが一般的である。
1) 図1に示すように、複数の結果が所定の入力に対応することができる、ドラッグベースの編集の本質的に不適切な性質を見越す。
2) 画質の制約を無視することは, 予期せぬ歪みを引き起こす可能性がある。
これを軽減するために、我々はLucidDragを提案します。
LucidDragは意図的推論器と協調的なガイダンスサンプリング機構を備える。
前者は、どのコンテンツとどのセマンティックな方向を編集するかを特定するために、いくつかの最適な編集戦略を推測する。
前者に基づいて、後者は、既存の編集指導と、新たに提案されたセマンティックガイダンスと品質ガイダンスを協調的に統合することで、"ドラッグする方法"に対処する。
具体的には、意味的指導は、合理的な意図に基づいて意味的な編集方向を確立することによって導き出され、品質指導は画像の忠実度判別器を用いて分類者誘導によって達成される。
定性的比較と定量的比較は、従来の方法よりもLucidDragの方が優れていることを示す。
関連論文リスト
- ContextDrag: Precise Drag-Based Image Editing via Context-Preserving Token Injection and Position-Consistent Attention [81.12932992203885]
ドラッグベースの編集のための新しいパラダイムであるContextDragを紹介します。
参照イメージからVAEエンコードされた機能を組み込むことで、ContextDragはリッチなコンテキストキューを活用し、きめ細かい詳細を保存することができる。
論文 参考訳(メタデータ) (2025-12-09T10:51:45Z) - A Reason-then-Describe Instruction Interpreter for Controllable Video Generation [88.95178842901095]
本稿では,生の命令をダウンストリームビデオジェネレータの正確な動作可能な仕様に変換する汎用型モデル非依存インタプリタReaDeを提案する。
命令忠実度,キャプション精度,下流映像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2025-11-25T17:59:07Z) - Semantic Prioritization in Visual Counterfactual Explanations with Weighted Segmentation and Auto-Adaptive Region Selection [50.68751788132789]
本研究は,自動適応候補編集ネットワーク(WSAE-Net)を用いた重み付きセマンティックマップ(Weighted Semantic Map)という,革新的な手法を提案する。
重み付きセマンティックマップの生成は、計算される必要のある非意味的特徴単位の削減を最大化するように設計されている。
自動適応型候補編集シーケンスは、処理すべき特徴ユニット間の最適な計算順序を決定するように設計されている。
論文 参考訳(メタデータ) (2025-11-17T05:34:10Z) - TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation [51.72432192816058]
共同ドラッグテキスト画像編集のための拡散型統合フレームワークを提案する。
本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
論文 参考訳(メタデータ) (2025-09-26T05:39:03Z) - LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence [31.686266704795273]
マルチモーダル拡散変換器の最初のドラッグベースの画像編集手法であるLazyDragを紹介する。
LazyDragは暗黙の点マッチングへの依存を直接排除する。
テキストガイダンスと正確な幾何学的制御を統一し、以前は手に入らなかった複雑な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-15T17:59:47Z) - AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - Combing Text-based and Drag-based Editing for Precise and Flexible Image Editing [9.398831289389749]
テキストとドラッグ信号を組み合わせた新しい画像編集手法である textbfCLIPDrag を提案する。
CLIPDragは、既存の単一のドラッグベースのメソッドやテキストベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-04T02:46:09Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - StableDrag: Stable Dragging for Point-based Image Editing [24.924112878074336]
点ベース画像編集はDragGANの出現以来注目されている。
近年、DragDiffusionは、このドラッグング技術を拡散モデルに適用することで、生成品質をさらに推し進めている。
我々は,安定かつ高精度なドラッグベース編集フレームワークであるStableDragを構築し,識別点追跡法と信頼度に基づく動作監視のための潜時拡張戦略を設計した。
論文 参考訳(メタデータ) (2024-03-07T12:11:02Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - FreeDrag: Feature Dragging for Reliable Point-based Image Editing [16.833998026980087]
我々は、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。
FreeDragには、アダプティブ更新によるテンプレート機能と、バックトラックによるライン検索という、2つの重要な設計が含まれている。
提案手法は既存の手法よりも優れており,様々な複雑なシナリオにおいても信頼性の高い点ベースの編集が可能である。
論文 参考訳(メタデータ) (2023-07-10T16:37:46Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Gradient-guided Unsupervised Text Style Transfer via Contrastive
Learning [6.799826701166569]
そこで本研究では,テキストスタイル転送のためのコントラストパラダイムによる勾配誘導モデルを提案し,類似した意味文を明示的に収集する。
2つのデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-23T12:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。