論文の概要: ProxyImg: Towards Highly-Controllable Image Representation via Hierarchical Disentangled Proxy Embedding
- arxiv url: http://arxiv.org/abs/2602.01881v1
- Date: Mon, 02 Feb 2026 09:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.054938
- Title: ProxyImg: Towards Highly-Controllable Image Representation via Hierarchical Disentangled Proxy Embedding
- Title(参考訳): ProxyImg:階層型不整形プロキシエンベディングによる高精細画像表現を目指して
- Authors: Ye Chen, Yupeng Zhu, Xiongzhen Zhang, Zhewen Wan, Yingzhe Li, Wenjun Zhang, Bingbing Ni,
- Abstract要約: 本稿では,意味的,幾何学的,テクスチュラルな属性を独立したパラメータ空間に分割する階層的プロキシベースパラメトリック画像表現を提案する。
本手法は,直感的,対話的,物理的に妥当な操作が可能でありながら,パラメータが大幅に少ない最先端のレンダリング忠実度を実現する。
- 参考スコア(独自算出の注目度): 44.20713526887855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevailing image representation methods, including explicit representations such as raster images and Gaussian primitives, as well as implicit representations such as latent images, either suffer from representation redundancy that leads to heavy manual editing effort, or lack a direct mapping from latent variables to semantic instances or parts, making fine-grained manipulation difficult. These limitations hinder efficient and controllable image and video editing. To address these issues, we propose a hierarchical proxy-based parametric image representation that disentangles semantic, geometric, and textural attributes into independent and manipulable parameter spaces. Based on a semantic-aware decomposition of the input image, our representation constructs hierarchical proxy geometries through adaptive Bezier fitting and iterative internal region subdivision and meshing. Multi-scale implicit texture parameters are embedded into the resulting geometry-aware distributed proxy nodes, enabling continuous high-fidelity reconstruction in the pixel domain and instance- or part-independent semantic editing. In addition, we introduce a locality-adaptive feature indexing mechanism to ensure spatial texture coherence, which further supports high-quality background completion without relying on generative models. Extensive experiments on image reconstruction and editing benchmarks, including ImageNet, OIR-Bench, and HumanEdit, demonstrate that our method achieves state-of-the-art rendering fidelity with significantly fewer parameters, while enabling intuitive, interactive, and physically plausible manipulation. Moreover, by integrating proxy nodes with Position-Based Dynamics, our framework supports real-time physics-driven animation using lightweight implicit rendering, achieving superior temporal consistency and visual realism compared with generative approaches.
- Abstract(参考訳): ラスター画像やガウスプリミティブなどの明示的な表現を含む画像表現法や、ラスター画像のような暗黙的な表現は、大量の手作業による編集作業につながる表現の冗長性に悩まされるか、ラスター変数からセマンティックインスタンスや部分への直接マッピングが欠如しているため、きめ細かい操作が困難になる。
これらの制限は、効率的で制御可能な画像とビデオの編集を妨げる。
これらの問題に対処するために,意味的・幾何学的・テクスチャ的属性を独立・操作可能なパラメータ空間に分解する階層的プロキシベースパラメトリック画像表現を提案する。
入力画像のセマンティック・アウェア分解に基づいて,適応型ベジーアフィッティングと反復型内部領域分割とメッシュ化により階層的プロキシ・ジオメトリを構成する。
マルチスケールの暗黙的テクスチャパラメータは、結果として生じるジオメトリ対応の分散プロキシノードに埋め込まれ、ピクセル領域における連続的な高忠実度再構成とインスタンスまたは部分独立セマンティック編集を可能にする。
さらに,空間テクスチャのコヒーレンスを確保するために,局所性適応型特徴量インデックス機構を導入する。
ImageNet,OIR-Bench,HumanEditなどの画像再構成および編集ベンチマークに関する大規模な実験により,本手法は,直感的でインタラクティブで物理的に妥当な操作を可能としつつ,パラメータを著しく少なくして最先端のレンダリング忠実性を実現することができることを示した。
さらに、プロキシノードを位置ベースダイナミクスと統合することにより、軽量な暗黙的レンダリングを用いたリアルタイム物理駆動アニメーションをサポートし、生成的アプローチと比較して時間的一貫性と視覚的リアリズムに優れる。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z) - Neural Hair Rendering [41.25606756188364]
仮想3Dヘアモデルから写真リアルな画像を合成できる汎用的なニューラルベースヘアレンダリングパイプラインを提案する。
提案手法の主な構成要素は,両領域の外観不変構造情報を符号化する潜在空間の共有である。
論文 参考訳(メタデータ) (2020-04-28T04:36:49Z) - Panoptic-based Image Synthesis [32.82903428124024]
条件付き画像合成は、コンテンツ編集からコンテンツ生成への様々な応用を提供する。
本研究では,パノプティカルマップに条件付き高忠実度・光実写画像を生成するために,パノプティカル・アウェア・イメージ合成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-21T20:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。