論文の概要: Training-Free Object-Background Compositional T2I via Dynamic Spatial Guidance and Multi-Path Pruning
- arxiv url: http://arxiv.org/abs/2604.09850v1
- Date: Fri, 10 Apr 2026 19:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.708587
- Title: Training-Free Object-Background Compositional T2I via Dynamic Spatial Guidance and Multi-Path Pruning
- Title(参考訳): 動的空間誘導とマルチパスプルーニングによる学習自由物体背景合成T2I
- Authors: Yang Deng, David Mould, Paul L. Rosin, Yu-Kun Lai,
- Abstract要約: 既存のテキスト・画像拡散モデルでは、背景は受動的で過度に最適化された副産物として扱われる。
本研究では,前景と背景の相互作用を明示的に考慮し,拡散サンプリングを再構成する学習自由フレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.21130437262217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-to-image diffusion models, while excelling at subject synthesis, exhibit a persistent foreground bias that treats the background as a passive and under-optimized byproduct. This imbalance compromises global scene coherence and constrains compositional control. To address the limitation, we propose a training-free framework that restructures diffusion sampling to explicitly account for foreground-background interactions. Our approach consists of two key components. First, Dynamic Spatial Guidance introduces a soft, time step dependent gating mechanism that modulates foreground and background attention during the diffusion process, enabling spatially balanced generation. Second, Multi-Path Pruning performs multi-path latent exploration and dynamically filters candidate trajectories using both internal attention statistics and external semantic alignment signals, retaining trajectories that better satisfy object-background constraints. We further develop a benchmark specifically designed to evaluate object-background compositionality. Extensive evaluations across multiple diffusion backbones demonstrate consistent improvements in background coherence and object-background compositional alignment.
- Abstract(参考訳): 既存のテキストと画像の拡散モデルでは、主題合成に優れた一方で、背景を受動的で最適化されていない副産物として扱う、持続的な前景バイアスを示す。
この不均衡は、グローバルなシーンコヒーレンスと構成制御の制約を損なう。
この制限に対処するために,拡散サンプリングを再構成し,前景と背景の相互作用を明示的に考慮する学習自由フレームワークを提案する。
このアプローチは2つの重要なコンポーネントで構成されています。
まず、動的空間誘導(Dynamic Spatial Guidance)は、拡散過程における前景と背景の注意を変調し、空間的バランスの取れた生成を可能にするソフトな時間ステップ依存ゲーティング機構を導入する。
第二に、マルチパスプルーニングは、内部の注意統計と外部のセマンティックアライメント信号の両方を用いて、マルチパス潜時探索を行い、動的に候補軌道をフィルタリングする。
さらに,オブジェクト指向の合成性を評価するためのベンチマークも開発している。
複数の拡散バックボーンにまたがる広範囲な評価は、背景コヒーレンスと対象-背景構成アライメントが一貫した改善を示す。
関連論文リスト
- FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM [50.9765003472032]
FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。
我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
論文 参考訳(メタデータ) (2025-12-31T17:57:45Z) - Background Matters Too: A Language-Enhanced Adversarial Framework for Person Re-Identification [1.409283414986451]
背景セマンティクスはReIDのフォアグラウンドセマンティクスと同じくらい重要であると我々は主張する。
本稿では,フォアグラウンドと背景情報を協調的にモデル化するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-03T05:38:22Z) - FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus [10.615833390806486]
多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
論文 参考訳(メタデータ) (2025-09-01T07:06:36Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - TivNe-SLAM: Dynamic Mapping and Tracking via Time-Varying Neural Radiance Fields [0.1227734309612871]
本稿では,動的シーンの追跡と再構成を行うための時間変化表現を提案する。
トラッキングプロセスとマッピングプロセスという2つのプロセスは、当社のフレームワークで同時に管理されます。
従来のNeRFベースの動的SLAMシステムと比較すると,提案手法はトラッキングとマッピングの両面で競合する結果が得られることが検証された。
論文 参考訳(メタデータ) (2023-10-29T06:10:46Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。