Fugu-MT 論文翻訳(概要): Shape-Guided Diffusion with Inside-Outside Attention

論文の概要: Shape-Guided Diffusion with Inside-Outside Attention

arxiv url: http://arxiv.org/abs/2212.00210v2
Date: Wed, 22 Mar 2023 08:58:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 01:30:54.477233
Title: Shape-Guided Diffusion with Inside-Outside Attention
Title（参考訳）: 内部注意を伴う形状誘導拡散
Authors: Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell
Abstract要約: 形状誘導拡散(Shape-Guided Diffusion)は、ユーザが指定した形状の入力に敏感であるか、あるいはテキストから自動的に推測されるように、事前訓練された拡散モデルを変更する。我々のメカニズムは、どの空間領域がオブジェクト(内側)か、背景(外側)かを指定し、テキストプロンプトによって指定された編集を正しい領域に関連付ける。
参考スコア（独自算出の注目度）: 77.21515137082923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When manipulating an object, existing text-to-image diffusion models often ignore the shape of the object and generate content that is incorrectly scaled, cut off, or replaced with background content. We propose a training-free method, Shape-Guided Diffusion, that modifies pretrained diffusion models to be sensitive to shape input specified by a user or automatically inferred from text. We use a novel Inside-Outside Attention mechanism during the inversion and generation process to apply this shape constraint to the cross- and self-attention maps. Our mechanism designates which spatial region is the object (inside) vs. background (outside) then associates edits specified by text prompts to the correct region. We demonstrate the efficacy of our method on the shape-guided editing task, where the model must replace an object according to a text prompt and object mask. We curate a new ShapePrompts benchmark derived from MS-COCO and achieve SOTA results in shape faithfulness without a degradation in text alignment or image realism according to both automatic metrics and annotator ratings. Our data and code will be made available at https://shape-guided-diffusion.github.io.
Abstract（参考訳）: オブジェクトを操作する場合、既存のテキストと画像の拡散モデルは、しばしばオブジェクトの形状を無視し、誤ったスケール、カット、あるいはバックグラウンドコンテンツに置き換えられたコンテンツを生成する。本稿では,ユーザが入力した形状に敏感になるように,あるいはテキストから自動的に推定する,トレーニングフリーな形状誘導拡散法を提案する。我々は、反転・生成過程において、新しい内部注意機構を用いて、この形状制約を交差及び自己注意マップに適用する。このメカニズムは、対象(内側)と背景(外側)がどの空間領域であるかを定義し、テキストプロンプトで指定された編集を正しい領域に関連付ける。本研究では,テキストプロンプトとオブジェクトマスクに基づいてオブジェクトを置き換えなければならない形状誘導編集作業において,本手法の有効性を実証する。我々は,ms-coco から派生した新しい shapeprompts ベンチマークをキュレートし,テキストアライメントや画像リアリズムの劣化を伴わずに sota 結果の形状忠実性を達成する。私たちのデータとコードはhttps://shape-guided-diffusion.github.ioで利用可能になります。

関連論文リスト

Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文参考訳（メタデータ） (2025-07-31T07:36:00Z)
Blended Point Cloud Diffusion for Localized Text-guided Shape Editing [12.332668298895717]
本研究では,点雲として表される形状を編集するインパインティングベースのフレームワークを提案する。そこで本研究では,全形状の復元と塗装のバランスをとる推論時間座標ブレンディングアルゴリズムを提案する。座標ブレンディングアルゴリズムは、元の形状と編集した形状をシームレスにブレンドし、3次元形状のきめ細かい編集を可能にする。
論文参考訳（メタデータ） (2025-07-21T09:00:19Z)
MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model [11.699591936909325]
MFTF(Msk-free Training-free Object-Level Layout Control Diffusion Model) MFTFは、追加のマスクや画像を必要とすることなく、オブジェクトの位置を正確に制御する。
論文参考訳（メタデータ） (2024-12-02T08:56:13Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
ShapeFusion: A 3D diffusion model for localized shape editing [37.82690898932135]
本研究では,任意の形状領域の局所的な操作を容易にする効果的な拡散マスキングトレーニング戦略を提案する。現在の最先端技術と比較して、我々の手法は遅延コード状態に依存する方法よりも解釈可能な形状操作をもたらす。
論文参考訳（メタデータ） (2024-03-28T18:50:19Z)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文参考訳（メタデータ） (2023-07-05T16:43:56Z)
Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:49:34Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)
Learning 3D Photography Videos via Self-supervised Diffusion on Single Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文参考訳（メタデータ） (2023-02-21T16:18:40Z)
Intuitive Shape Editing in Latent Space [9.034665429931406]
本稿では,潜伏部分空間をアンタングル化することで,潜伏空間における直感的な形状編集を可能にするオートエンコーダに基づく手法を提案する。我々は,この手法を最先端のデータ駆動型形状編集法と比較することで評価する。
論文参考訳（メタデータ） (2021-11-24T13:33:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。