Fugu-MT 論文翻訳(概要): PosBridge: Multi-View Positional Embedding Transplant for Identity-Aware Image Editing

論文の概要: PosBridge: Multi-View Positional Embedding Transplant for Identity-Aware Image Editing

arxiv url: http://arxiv.org/abs/2508.17302v1
Date: Sun, 24 Aug 2025 11:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 18:43:45.45567
Title: PosBridge: Multi-View Positional Embedding Transplant for Identity-Aware Image Editing
Title（参考訳）: PosBridge: アイデンティティを意識した画像編集のための多視点位置埋め込み移植
Authors: Peilin Xiong, Junwen Chen, Honghui Yuan, Keiji Yanai,
Abstract要約: ローカライズされた被写体駆動画像編集は、ユーザが指定したオブジェクトをシームレスにターゲットシーンに統合することを目的としている。 PosBridgeは、カスタムオブジェクトを挿入するための効率的で柔軟なフレームワークである。 PosBridgeは、構造整合性、外観の忠実さ、計算効率において、主流のベースラインを上回っている。
参考スコア（独自算出の注目度）: 6.102786823233576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Localized subject-driven image editing aims to seamlessly integrate user-specified objects into target scenes. As generative models continue to scale, training becomes increasingly costly in terms of memory and computation, highlighting the need for training-free and scalable editing frameworks.To this end, we propose PosBridge an efficient and flexible framework for inserting custom objects. A key component of our method is positional embedding transplant, which guides the diffusion model to faithfully replicate the structural characteristics of reference objects.Meanwhile, we introduce the Corner Centered Layout, which concatenates reference images and the background image as input to the FLUX.1-Fill model. During progressive denoising, positional embedding transplant is applied to guide the noise distribution in the target region toward that of the reference object. In this way, Corner Centered Layout effectively directs the FLUX.1-Fill model to synthesize identity-consistent content at the desired location. Extensive experiments demonstrate that PosBridge outperforms mainstream baselines in structural consistency, appearance fidelity, and computational efficiency, showcasing its practical value and potential for broad adoption.
Abstract（参考訳）: ローカライズされた被写体駆動画像編集は、ユーザが指定したオブジェクトをシームレスにターゲットシーンに統合することを目的としている。生成モデルがスケールし続けるにつれて、トレーニングはメモリと計算の面でますますコストがかかるようになり、トレーニング不要でスケーラブルな編集フレームワークの必要性が強調される。本手法の重要な構成要素は, 拡散モデルを用いて参照対象の構造特性を忠実に再現する位置埋め込み移植である。一方, FLUX.1-Fillモデルへの入力として, 参照画像と背景画像を結合したコーナー中心レイアウトを導入する。プログレッシブデノナイジング中、目標領域の雑音分布を基準対象領域へ誘導するために位置埋め込み移植を適用する。このように、Corner Centered LayoutはFLUX.1-Fillモデルを効果的に誘導し、所望の場所でアイデンティティ一貫性のあるコンテンツを合成する。広範な実験により、PosBridgeは構造整合性、外観の忠実さ、計算効率において主流のベースラインより優れており、その実用的価値と広く採用される可能性を示している。

関連論文リスト

Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文参考訳（メタデータ） (2024-12-19T05:02:30Z)
LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文参考訳（メタデータ） (2024-11-22T08:44:39Z)
Generative Location Modeling for Spatially Aware Object Insertion [35.62317512925592]
生成モデルは、オブジェクト挿入を含む画像編集タスクの強力なツールになっている。本稿では,現実的な物体の位置を識別するための位置モデルの構築に焦点をあてる。具体的には,背景画像と所望のオブジェクトクラスに条件付き境界ボックス座標を生成する自己回帰モデルを訓練する。この定式化により、スパース配置アノテーションを効果的に処理し、直接選好最適化を行うことで、不明瞭な位置を選好データセットに組み込むことができる。
論文参考訳（メタデータ） (2024-10-17T14:00:41Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Spatial-Aware Latent Initialization for Controllable Image Generation [9.23227552726271]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力に条件付けされた高品質な画像を生成することができる。従来の研究は、主にレイアウト条件と交差注意マップの整合性に重点を置いてきた。そこで本研究では,デノナイズ過程における空間認識初期化雑音を利用して,より優れたレイアウト制御を実現することを提案する。
論文参考訳（メタデータ） (2024-01-29T13:42:01Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
Variable Radiance Field for Real-World Category-Specific Reconstruction from Single Image [25.44715538841181]
単一画像からNeural Radiance Field(NeRF)を使用してカテゴリ固有のオブジェクトを再構成することは、有望だが挑戦的な作業である。本稿では,カテゴリ固有のオブジェクトを効率的に再構成できる新しいフレームワークである可変放射場(VRF)を提案する。 VRFは、再構築品質と計算効率の両方において最先端の性能を達成する。
論文参考訳（メタデータ） (2023-06-08T12:12:02Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。