Fugu-MT 論文翻訳(概要): Tuning-Free Visual Customization via View Iterative Self-Attention Control

論文の概要: Tuning-Free Visual Customization via View Iterative Self-Attention Control

arxiv url: http://arxiv.org/abs/2406.06258v1
Date: Mon, 10 Jun 2024 13:41:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 13:58:00.128691
Title: Tuning-Free Visual Customization via View Iterative Self-Attention Control
Title（参考訳）: ビュー・イテレーティブ・セルフアテンション制御によるチューニング不要な視覚カスタマイズ
Authors: Xiaojie Li, Chenghao Gu, Shuzhao Xie, Yunpeng Bai, Weixiang Zhang, Zhi Wang,
Abstract要約: この課題に対処するために、textitView Iterative Self-Attention Control (VisCtrl)を提案する。 VisCtrlは、ターゲット画像中の別の被写体にユーザ特定被写体の外観と構造を注入する、トレーニング不要な方法である。提案手法は,数ステップで1つの参照画像のみを用いて一貫した,調和的な編集を行う。
参考スコア（独自算出の注目度）: 10.657829781274254
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Fine-Tuning Diffusion Models enable a wide range of personalized generation and editing applications on diverse visual modalities. While Low-Rank Adaptation (LoRA) accelerates the fine-tuning process, it still requires multiple reference images and time-consuming training, which constrains its scalability for large-scale and real-time applications. In this paper, we propose \textit{View Iterative Self-Attention Control (VisCtrl)} to tackle this challenge. Specifically, VisCtrl is a training-free method that injects the appearance and structure of a user-specified subject into another subject in the target image, unlike previous approaches that require fine-tuning the model. Initially, we obtain the initial noise for both the reference and target images through DDIM inversion. Then, during the denoising phase, features from the reference image are injected into the target image via the self-attention mechanism. Notably, by iteratively performing this feature injection process, we ensure that the reference image features are gradually integrated into the target image. This approach results in consistent and harmonious editing with only one reference image in a few denoising steps. Moreover, benefiting from our plug-and-play architecture design and the proposed Feature Gradual Sampling strategy for multi-view editing, our method can be easily extended to edit in complex visual domains. Extensive experiments show the efficacy of VisCtrl across a spectrum of tasks, including personalized editing of images, videos, and 3D scenes.
Abstract（参考訳）: 微調整拡散モデルにより、様々な視覚的モダリティに関する幅広いパーソナライズされた生成および編集アプリケーションを実現できる。 Low-Rank Adaptation (LoRA)は微調整プロセスを加速するが、複数の参照イメージと時間を要するため、大規模およびリアルタイムアプリケーションではスケーラビリティが制限される。本稿では,この課題に対処するために, <textit{View Iterative Self-Attention Control (VisCtrl) を提案する。具体的には、VisCtrlは、モデルの微調整を必要とする以前のアプローチとは異なり、ターゲット画像中の別の被写体にユーザ特定被写体の外観と構造を注入する、トレーニング不要な方法である。まず、DDIMのインバージョンにより、参照画像とターゲット画像の両方に対する初期ノイズを得る。そして、復調段階では、自己認識機構を介して、基準画像から特徴を目標画像に注入する。特に,この特徴注入を反復的に行うことにより,対象画像に参照画像の特徴が徐々に統合されることが保証される。このアプローチは、数ステップで1つの参照イメージだけで、一貫性があり調和的な編集をもたらす。さらに,プラグイン・アンド・プレイのアーキテクチャ設計と,マルチビュー編集のための機能グラデュアル・サンプリング・ストラテジーにより,複雑な視覚領域の編集を容易に行えるようにした。大規模な実験は、画像、ビデオ、および3Dシーンのパーソナライズされた編集を含む、さまざまなタスクにおけるVisCtrlの有効性を示している。

関連論文リスト

Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文参考訳（メタデータ） (2025-07-22T05:25:38Z)
Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
Multi-party Collaborative Attention Control for Image Customization [25.362414993337552]
MCA-Ctrlは、テキストと複雑な視覚条件の両方を用いて高品質な画像カスタマイズを可能にするチューニング不要な手法である。 MCA-Ctrlは、条件入力とのセマンティック一貫性を維持しながら、特定の被験者の内容と外観をキャプチャする。
論文参考訳（メタデータ） (2025-04-02T12:45:49Z)
DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-02T22:29:14Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-03-19T11:48:35Z)
Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文参考訳（メタデータ） (2024-02-22T18:50:18Z)
Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。 TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文参考訳（メタデータ） (2023-12-22T11:13:22Z)
Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文参考訳（メタデータ） (2021-02-01T21:38:36Z)
Look here! A parametric learning based approach to redirect visual attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文参考訳（メタデータ） (2020-08-12T16:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。