論文の概要: Trajectory-Guided Diffusion for Foreground-Preserving Background Generation in Multi-Layer Documents
- arxiv url: http://arxiv.org/abs/2601.21857v1
- Date: Thu, 29 Jan 2026 15:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.937231
- Title: Trajectory-Guided Diffusion for Foreground-Preserving Background Generation in Multi-Layer Documents
- Title(参考訳): 多層文書における前景保存背景生成のための軌道誘導拡散
- Authors: Taewon Kang,
- Abstract要約: 文書中心の背景生成のための拡散型フレームワークを提案する。
前景保存と多ページスタイリスティックな整合性を実現する。
我々のアプローチは、拡散を構造化された潜在空間を通る軌道の進化として再解釈する。
- 参考スコア(独自算出の注目度): 0.5801621787540268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a diffusion-based framework for document-centric background generation that achieves foreground preservation and multi-page stylistic consistency through latent-space design rather than explicit constraints. Instead of suppressing diffusion updates or applying masking heuristics, our approach reinterprets diffusion as the evolution of stochastic trajectories through a structured latent space. By shaping the initial noise and its geometric alignment, background generation naturally avoids designated foreground regions, allowing readable content to remain intact without auxiliary mechanisms. To address the long-standing issue of stylistic drift across pages, we decouple style control from text conditioning and introduce cached style directions as persistent vectors in latent space. Once selected, these directions constrain diffusion trajectories to a shared stylistic subspace, ensuring consistent appearance across pages and editing iterations. This formulation eliminates the need for repeated prompt-based style specification and provides a more stable foundation for multi-page generation. Our framework admits a geometric and physical interpretation, where diffusion paths evolve on a latent manifold shaped by preferred directions, and foreground regions are rarely traversed as a consequence of trajectory initialization rather than explicit exclusion. The proposed method is training-free, compatible with existing diffusion backbones, and produces visually coherent, foreground-preserving results across complex documents. By reframing diffusion as trajectory design in latent space, we offer a principled approach to consistent and structured generative modeling.
- Abstract(参考訳): 本稿では,文書中心の背景生成のための拡散型フレームワークを提案する。このフレームワークは,明示的な制約ではなく,潜在空間設計による前景の保存と多ページスタイリスティックな整合性を実現する。
拡散の更新を抑えるか、マスクのヒューリスティックスを適用する代わりに、我々のアプローチは、構造された潜在空間を通しての確率軌道の進化として拡散を再解釈する。
初期ノイズとその幾何学的アライメントを形作ることにより、背景生成は指定された前景領域を自然に回避し、補助機構なしで読みやすいコンテンツをそのまま残すことができる。
ページ間のスタイリスティックなドリフトの長年の問題に対処するため,テキストコンディショニングからスタイル制御を分離し,潜時空間における永続ベクトルとしてキャッシュされたスタイル方向を導入する。
一度選択すると、これらの方向は拡散軌跡を共有スタイリスティックな部分空間に制約し、ページをまたいで一貫した外観を確保し、反復を編集する。
この定式化は、繰り返しプロンプトベースのスタイル仕様の必要性を排除し、マルチページ生成のためのより安定した基盤を提供する。
我々の枠組みは幾何学的・物理的解釈を認めており, 拡散経路は所望の方向で形づくられた潜在多様体上で進化し, 前景領域は明示的排除よりも軌道初期化の結果, ほとんど通過しない。
提案手法はトレーニング不要で,既存の拡散バックボーンと互換性があり,複雑な文書にまたがる視覚的コヒーレントなフォアグラウンド保存結果を生成する。
遅延空間における拡散を軌道設計として再フレーミングすることにより、一貫した構造的生成モデリングに対する原則的アプローチを提供する。
関連論文リスト
- Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - Test-Time Anchoring for Discrete Diffusion Posterior Sampling [38.507644561076894]
後方サンプリングは、事前訓練された離散拡散基礎モデルにとって難しい問題である。
マスク拡散基礎モデルのためのAnchored Posterior Smpling (APS) を提案する。
本手法は線形および非線形逆問題に対する離散拡散サンプリング器の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-02T17:58:37Z) - Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-05-27T17:54:24Z) - From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。
現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文 参考訳(メタデータ) (2025-04-19T13:40:46Z) - Hyperbolic Diffusion Recommender Model [30.751002462776537]
レコメンデーターシステムでは、アイテムは画像にあまり普及しない異方性と方向の異なる構造を示すことが多い。
本稿では,ユーザやアイテムに特化して調整された,新しい双曲型潜伏拡散プロセスを提案する。
3つのベンチマークデータセットの実験では、HDRMの有効性が示されている。
論文 参考訳(メタデータ) (2025-04-02T09:27:40Z) - Unsupervised Region-Based Image Editing of Denoising Diffusion Models [50.005612464340246]
本研究では,事前学習した拡散モデルの潜在空間における意味的属性を,それ以上の訓練を伴わずに同定する手法を提案する。
提案手法により,局所的なマスキング領域の正確な意味発見と制御が容易になり,アノテーションの必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T13:46:12Z) - Fine-grained Appearance Transfer with Diffusion Models [23.29713777525402]
画像から画像への変換(I2I)は、構造的コヒーレンスを維持しながら、画像間の視覚的外観を変化させようとしている。
本稿では, セマンティックマッチング, 外観伝達, 潜時偏差の様々な側面を統合することで, これらの課題を克服する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T04:00:04Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - Few Shot Generative Model Adaption via Relaxed Spatial Structural
Alignment [130.84010267004803]
限られたデータでGAN(Generative Adversarial Network)を訓練することは難しい課題である。
実現可能な解決策は、大規模なソースドメインで十分に訓練されたGANから始め、ターゲットドメインにいくつかのサンプルで適応することである。
本研究では,適応時の対象生成モデルのキャリブレーションを行うための緩和された空間構造アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T14:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。