論文の概要: Localize, Understand, Collaborate: Semantic-Aware Dragging via Intention Reasoner
- arxiv url: http://arxiv.org/abs/2406.00432v2
- Date: Tue, 22 Oct 2024 07:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:03.591061
- Title: Localize, Understand, Collaborate: Semantic-Aware Dragging via Intention Reasoner
- Title(参考訳): ローカライズ・アンダービュート・コラボレート:インテンション・リゾナーによるセマンティック・アウェア・ドラッグング
- Authors: Xing Cui, Peipei Li, Zekun Li, Xuannan Liu, Yueying Zou, Zhaofeng He,
- Abstract要約: 現在の手法では、この問題をポイントドラッグを通じて"ドラッグする方法"を自動学習するものとしてモデル化するのが一般的である。
我々はLucidDragを提案する。これは"ドラッグする方法"から"どうあるべきか"パラダイムに焦点を移すものだ。
- 参考スコア(独自算出の注目度): 8.310002338000954
- License:
- Abstract: Flexible and accurate drag-based editing is a challenging task that has recently garnered significant attention. Current methods typically model this problem as automatically learning "how to drag" through point dragging and often produce one deterministic estimation, which presents two key limitations: 1) Overlooking the inherently ill-posed nature of drag-based editing, where multiple results may correspond to a given input, as illustrated in Fig.1; 2) Ignoring the constraint of image quality, which may lead to unexpected distortion. To alleviate this, we propose LucidDrag, which shifts the focus from "how to drag" to "what-then-how" paradigm. LucidDrag comprises an intention reasoner and a collaborative guidance sampling mechanism. The former infers several optimal editing strategies, identifying what content and what semantic direction to be edited. Based on the former, the latter addresses "how to drag" by collaboratively integrating existing editing guidance with the newly proposed semantic guidance and quality guidance. Specifically, semantic guidance is derived by establishing a semantic editing direction based on reasoned intentions, while quality guidance is achieved through classifier guidance using an image fidelity discriminator. Both qualitative and quantitative comparisons demonstrate the superiority of LucidDrag over previous methods.
- Abstract(参考訳): 柔軟で正確なドラッグベースの編集は、最近大きな注目を集めた課題である。
現在の手法では、この問題をポイントドラッグを通じて自動的に"ドラッグする方法"を学習し、決定論的推定を1つ生成するのが一般的である。
1) 図1に示すように、複数の結果が所定の入力に対応することができる、ドラッグベースの編集の本質的に不適切な性質を見越す。
2) 画質の制約を無視することは, 予期せぬ歪みを引き起こす可能性がある。
これを軽減するために、我々はLucidDragを提案します。
LucidDragは意図的推論器と協調的なガイダンスサンプリング機構を備える。
前者は、どのコンテンツとどのセマンティックな方向を編集するかを特定するために、いくつかの最適な編集戦略を推測する。
前者に基づいて、後者は、既存の編集指導と、新たに提案されたセマンティックガイダンスと品質ガイダンスを協調的に統合することで、"ドラッグする方法"に対処する。
具体的には、意味的指導は、合理的な意図に基づいて意味的な編集方向を確立することによって導き出され、品質指導は画像の忠実度判別器を用いて分類者誘導によって達成される。
定性的比較と定量的比較は、従来の方法よりもLucidDragの方が優れていることを示す。
関連論文リスト
- AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - Combing Text-based and Drag-based Editing for Precise and Flexible Image Editing [9.398831289389749]
テキストとドラッグ信号を組み合わせた新しい画像編集手法である textbfCLIPDrag を提案する。
CLIPDragは、既存の単一のドラッグベースのメソッドやテキストベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-04T02:46:09Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - StableDrag: Stable Dragging for Point-based Image Editing [24.924112878074336]
点ベース画像編集はDragGANの出現以来注目されている。
近年、DragDiffusionは、このドラッグング技術を拡散モデルに適用することで、生成品質をさらに推し進めている。
我々は,安定かつ高精度なドラッグベース編集フレームワークであるStableDragを構築し,識別点追跡法と信頼度に基づく動作監視のための潜時拡張戦略を設計した。
論文 参考訳(メタデータ) (2024-03-07T12:11:02Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - FreeDrag: Feature Dragging for Reliable Point-based Image Editing [16.833998026980087]
我々は、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。
FreeDragには、アダプティブ更新によるテンプレート機能と、バックトラックによるライン検索という、2つの重要な設計が含まれている。
提案手法は既存の手法よりも優れており,様々な複雑なシナリオにおいても信頼性の高い点ベースの編集が可能である。
論文 参考訳(メタデータ) (2023-07-10T16:37:46Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Gradient-guided Unsupervised Text Style Transfer via Contrastive
Learning [6.799826701166569]
そこで本研究では,テキストスタイル転送のためのコントラストパラダイムによる勾配誘導モデルを提案し,類似した意味文を明示的に収集する。
2つのデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-23T12:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。