Fugu-MT 論文翻訳(概要): Shape-Guided Diffusion with Inside-Outside Attention

論文の概要: Shape-Guided Diffusion with Inside-Outside Attention

arxiv url: http://arxiv.org/abs/2212.00210v3
Date: Mon, 1 Apr 2024 17:19:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 14:11:24.387539
Title: Shape-Guided Diffusion with Inside-Outside Attention
Title（参考訳）: 内面注意による形状誘導拡散
Authors: Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell,
Abstract要約: テキストから画像への拡散モデルにおけるユーザ制御の新たな形態として,正確なオブジェクトシルエットを導入する。トレーニング不要な手法は、内外注意機構を用いて、交差及び自己注意マップに形状制約を適用する。
参考スコア（独自算出の注目度）: 60.557437251084465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce precise object silhouette as a new form of user control in text-to-image diffusion models, which we dub Shape-Guided Diffusion. Our training-free method uses an Inside-Outside Attention mechanism during the inversion and generation process to apply a shape constraint to the cross- and self-attention maps. Our mechanism designates which spatial region is the object (inside) vs. background (outside) then associates edits to the correct region. We demonstrate the efficacy of our method on the shape-guided editing task, where the model must replace an object according to a text prompt and object mask. We curate a new ShapePrompts benchmark derived from MS-COCO and achieve SOTA results in shape faithfulness without a degradation in text alignment or image realism according to both automatic metrics and annotator ratings. Our data and code will be made available at https://shape-guided-diffusion.github.io.
Abstract（参考訳）: テキスト・画像拡散モデルにおけるユーザ制御の新たな形態として,正確なオブジェクトシルエットを導入し,形状誘導拡散を再現する。トレーニング不要な手法では、インバージョンと生成プロセス中に内部注意機構を用いて、交差および自己注意マップに形状制約を適用する。我々のメカニズムは、どの空間領域がオブジェクト(内側)か、背景(外側)かを指定し、編集を正しい領域に関連付ける。本研究では,テキストプロンプトとオブジェクトマスクに基づいてオブジェクトを置き換えなければならない形状誘導編集作業において,本手法の有効性を実証する。我々は、MS-COCOから派生した新しいShapePromptsベンチマークをキュレートし、自動測定値とアノテータ評価値の両方に応じて、テキストアライメントや画像リアリズムの劣化を伴わずに、SOTA結果の整合性を実現する。私たちのデータとコードはhttps://shape-guided-diffusion.github.io.comで公開されます。

関連論文リスト

Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文参考訳（メタデータ） (2025-07-31T07:36:00Z)
Blended Point Cloud Diffusion for Localized Text-guided Shape Editing [12.332668298895717]
本研究では,点雲として表される形状を編集するインパインティングベースのフレームワークを提案する。そこで本研究では,全形状の復元と塗装のバランスをとる推論時間座標ブレンディングアルゴリズムを提案する。座標ブレンディングアルゴリズムは、元の形状と編集した形状をシームレスにブレンドし、3次元形状のきめ細かい編集を可能にする。
論文参考訳（メタデータ） (2025-07-21T09:00:19Z)
MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model [11.699591936909325]
MFTF(Msk-free Training-free Object-Level Layout Control Diffusion Model) MFTFは、追加のマスクや画像を必要とすることなく、オブジェクトの位置を正確に制御する。
論文参考訳（メタデータ） (2024-12-02T08:56:13Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
ShapeFusion: A 3D diffusion model for localized shape editing [37.82690898932135]
本研究では,任意の形状領域の局所的な操作を容易にする効果的な拡散マスキングトレーニング戦略を提案する。現在の最先端技術と比較して、我々の手法は遅延コード状態に依存する方法よりも解釈可能な形状操作をもたらす。
論文参考訳（メタデータ） (2024-03-28T18:50:19Z)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文参考訳（メタデータ） (2023-07-05T16:43:56Z)
Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:49:34Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)
Learning 3D Photography Videos via Self-supervised Diffusion on Single Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文参考訳（メタデータ） (2023-02-21T16:18:40Z)
Intuitive Shape Editing in Latent Space [9.034665429931406]
本稿では,潜伏部分空間をアンタングル化することで,潜伏空間における直感的な形状編集を可能にするオートエンコーダに基づく手法を提案する。我々は,この手法を最先端のデータ駆動型形状編集法と比較することで評価する。
論文参考訳（メタデータ） (2021-11-24T13:33:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。