論文の概要: Progressive Photorealistic Simplification
- arxiv url: http://arxiv.org/abs/2605.10409v1
- Date: Mon, 11 May 2026 11:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.782288
- Title: Progressive Photorealistic Simplification
- Title(参考訳): プログレッシブ・フォトリアリスティック・シンプル化
- Authors: Adi Rosenthal, Dana Berman, Yedid Hoshen, Ariel Shamir,
- Abstract要約: 本稿では,要素の除去と着色によってシーンの複雑さを反復的に低減する,プログレッシブ・セマンティック・イメージの単純化について紹介する。
本手法は,意味的理解と生成的編集を組み合わせ,視覚言語モデル(VLM)を用いて要素の識別と優先順位付けを行う。
効率を向上させるため,このプロセスは単一入力画像からコヒーレントな単純化シーケンスを直接予測する画像対ビデオ生成モデルに蒸留する。
- 参考スコア(独自算出の注目度): 35.59806534693362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing image simplification techniques often rely on Non-Photorealistic Rendering (NPR), transforming photographs into stylized sketches, cartoons, or paintings. While effective at reducing visual complexity, such approaches typically sacrifice photographic realism. In this work, we explore a complementary direction: simplifying images while preserving their photorealistic appearance. We introduce progressive semantic image simplification, a framework that iteratively reduces scene complexity by removing and inpainting elements in a controlled manner. At each step, the resulting image remains a plausible natural photograph. Our method combines semantic understanding with generative editing, leveraging Vision-Language Models (VLMs) to identify and prioritize elements for removal, and a learned verifier to ensure photorealism and coherence throughout the process. This is implemented via an iterative Select-Remove-Verify pipeline that produces high-quality simplification trajectories. To improve efficiency, we further distill this process into an image-to-video generation model that directly predicts coherent simplification sequences from a single input image. Beyond generating cleaner and more focused compositions, our approach enables applications such as content-aware decluttering, semantic layer decomposition, and interactive editing. More broadly, our work suggests that simplification through structured content removal can serve as a practical mechanism for guiding visual interpretation within the photorealistic domain, complementing traditional abstraction methods.
- Abstract(参考訳): 既存の画像単純化技術は、しばしば非フォトリアリスティックレンダリング(NPR)に依存し、写真がスタイリングされたスケッチ、漫画、絵画に変換される。
視覚的な複雑さを減らすのに効果的であるが、そのようなアプローチは一般的に写真リアリズムを犠牲にする。
本研究では,フォトリアリスティックな外観を維持しながら,画像の簡易化という補完的な方向性を探求する。
本稿では,シーンの難易度を反復的に低減する,プログレッシブ・セマンティック・イメージの単純化について紹介する。
それぞれのステップにおいて、得られた画像は、もっともらしい自然写真のままである。
本手法は, 意味的理解と生成的編集, 視覚言語モデル(VLM)を併用して, 除去のための要素を特定し, 優先順位付けし, プロセス全体を通して光リアリズムとコヒーレンスを確保するための学習検証を行う。
これは、高品質な単純化軌道を生成する反復Select-Remove-Verifyパイプラインを介して実装される。
効率を向上するために、このプロセスを画像からビデオへ変換し、単一の入力画像からコヒーレントな単純化シーケンスを直接予測する。
よりクリーンでより焦点を絞ったコンポジションを生成することに加えて、コンテンツ認識のデクラッタリング、セマンティック・レイヤの分解、インタラクティブな編集といった応用が可能になる。
より広範に、構造化コンテンツ削除による単純化は、従来の抽象的手法を補完し、フォトリアリスティック領域内で視覚的解釈を導くための実践的なメカニズムとして役立つことを示唆している。
関連論文リスト
- Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文 参考訳(メタデータ) (2026-01-10T16:01:14Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - The Stable Artist: Steering Semantics in Diffusion Latent Space [17.119616029527744]
本稿では,画像生成プロセスのきめ細かい制御を可能にする画像編集手法であるStable Artistを提案する。
主要なコンポーネントはセマンティックガイダンス(SEGA)であり、セマンティックな方向の変数数に沿って拡散過程を制御している。
SEGAは、モデルによって学習された概念の表現に関する洞察を得るために、潜在空間の探索を可能にする。
論文 参考訳(メタデータ) (2022-12-12T16:21:24Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。