論文の概要: Cycle-Consistent Tuning for Layered Image Decomposition
- arxiv url: http://arxiv.org/abs/2602.20989v1
- Date: Tue, 24 Feb 2026 15:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.808019
- Title: Cycle-Consistent Tuning for Layered Image Decomposition
- Title(参考訳): 層状画像分解のためのサイクル一貫性チューニング
- Authors: Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-O, Hui Huang,
- Abstract要約: ビジュアルレイヤを現実世界のイメージに切り離すことは、視覚とグラフィックスにおいて永続的な課題である。
層状分離に大規模な拡散基盤モデルを利用するインコンテキスト画像分解フレームワークを提案する。
提案手法は, 高精度かつコヒーレントな分解を実現し, その他の分解タイプに対して効果的に一般化する。
- 参考スコア(独自算出の注目度): 26.331480224165364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentangling visual layers in real-world images is a persistent challenge in vision and graphics, as such layers often involve non-linear and globally coupled interactions, including shading, reflection, and perspective distortion. In this work, we present an in-context image decomposition framework that leverages large diffusion foundation models for layered separation. We focus on the challenging case of logo-object decomposition, where the goal is to disentangle a logo from the surface on which it appears while faithfully preserving both layers. Our method fine-tunes a pretrained diffusion model via lightweight LoRA adaptation and introduces a cycle-consistent tuning strategy that jointly trains decomposition and composition models, enforcing reconstruction consistency between decomposed and recomposed images. This bidirectional supervision substantially enhances robustness in cases where the layers exhibit complex interactions. Furthermore, we introduce a progressive self-improving process, which iteratively augments the training set with high-quality model-generated examples to refine performance. Extensive experiments demonstrate that our approach achieves accurate and coherent decompositions and also generalizes effectively across other decomposition types, suggesting its potential as a unified framework for layered image decomposition.
- Abstract(参考訳): 現実世界の画像で視覚層を遠ざけることは、視覚とグラフィックスにおいて永続的な課題であり、そのような層は、陰影、反射、遠近視の歪みを含む、非線形でグローバルに結合した相互作用を伴うことが多い。
本研究では,層状分離に大規模な拡散基盤モデルを利用する,コンテキスト内画像分解フレームワークを提案する。
そこでは,両層を忠実に保存しつつ,ロゴを表面から切り離すことが目的である。
提案手法は,LoRA適応による事前学習拡散モデルを微調整し,分解・合成モデルを共同で訓練し,分解・再分割画像間の再構成一貫性を付与するサイクル一貫性チューニング戦略を導入する。
この双方向の監視は、層が複雑な相互作用を示す場合の堅牢性を大幅に向上させる。
さらに,高品質なモデル生成例でトレーニングセットを反復的に強化し,性能を向上するプログレッシブ自己改善プロセスを導入する。
広汎な実験により,本手法は精度とコヒーレントな分解を達成でき,また,他の分解タイプに対しても効果的に一般化できることが示され,階層化画像分解のための統一的なフレームワークとしての可能性が示唆された。
関連論文リスト
- Combined Flicker-banding and Moire Removal for Screen-Captured Images [24.036188551666573]
本研究は,スクリーンキャプチャ画像におけるモアレパターンとフリックバンドの同時除去に関する最初の体系的研究である。
このタスクを支援するために,モアレパターンとフリックバンド処理の両方を含む大規模データセットを構築した。
また,ISPベースのフラッカシミュレーションパイプラインを導入し,モデルトレーニングを安定化し,劣化分布を拡大する。
論文 参考訳(メタデータ) (2026-02-02T02:53:41Z) - From Inpainting to Layer Decomposition: Repurposing Generative Inpainting Models for Image Layer Decomposition [16.7393689710179]
レイヤ化された表現により、要素の独立した編集が可能になり、コンテンツ作成の柔軟性が向上する。
我々は, 層分解と in/outpainting タスクの強い関係を観察し, 軽量微細化による層分解に対する拡散型インペインティングモデルの適用を提案する。
潜伏空間の細部をより詳細に保存するために,線形注意複雑性を持つ新しいマルチモーダルコンテキスト融合モジュールを導入する。
論文 参考訳(メタデータ) (2025-11-26T02:50:07Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - OneRestore: A Universal Restoration Framework for Composite Degradation [33.556183375565034]
現実のシナリオでは、画像障害はしばしば複合的な劣化として現れ、低光、迷路、雨、雪といった要素の複雑な相互作用を示す。
本研究では, 複雑な複合劣化シナリオを正確に表現するために, 4つの物理劣化パラダイムを統合した多目的イメージングモデルを提案する。
OneRestoreは、適応的で制御可能なシーン復元のために設計された新しいトランスフォーマーベースのフレームワークである。
論文 参考訳(メタデータ) (2024-07-05T16:27:00Z) - Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。
提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。
後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-21T18:54:19Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Bridging Component Learning with Degradation Modelling for Blind Image
Super-Resolution [69.11604249813304]
視覚障害者のためのコンポーネント分解・協調最適化ネットワーク(CDCN)を提案する。
CDCNは入力LR画像を特徴空間の構造と詳細成分に分解する。
本稿では,HR画像の細部と構造復元過程を協調的に監督する,劣化駆動型学習戦略を提案する。
論文 参考訳(メタデータ) (2022-12-03T14:53:56Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Learning to See Through Obstructions with Layered Decomposition [117.77024641706451]
移動画像から不要な障害を取り除くための学習に基づくアプローチを提案する。
本手法は背景要素と閉塞要素の運動差を利用して両方の層を復元する。
本研究では,合成データから得られた提案手法が実画像に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。