論文の概要: Image-GS: Content-Adaptive Image Representation via 2D Gaussians
- arxiv url: http://arxiv.org/abs/2407.01866v2
- Date: Wed, 07 May 2025 04:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.699569
- Title: Image-GS: Content-Adaptive Image Representation via 2D Gaussians
- Title(参考訳): Image-GS:2Dガウスによるコンテンツ適応画像表現
- Authors: Yunxiang Zhang, Bingxuan Li, Alexandr Kuznetsov, Akshay Jindal, Stavros Diolatzis, Kenneth Chen, Anton Sochenov, Anton Kaplanyan, Qi Sun,
- Abstract要約: 本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
- 参考スコア(独自算出の注目度): 52.598772767324036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural image representations have emerged as a promising approach for encoding and rendering visual data. Combined with learning-based workflows, they demonstrate impressive trade-offs between visual fidelity and memory footprint. Existing methods in this domain, however, often rely on fixed data structures that suboptimally allocate memory or compute-intensive implicit models, hindering their practicality for real-time graphics applications. Inspired by recent advancements in radiance field rendering, we introduce Image-GS, a content-adaptive image representation based on 2D Gaussians. Leveraging a custom differentiable renderer, Image-GS reconstructs images by adaptively allocating and progressively optimizing a group of anisotropic, colored 2D Gaussians. It achieves a favorable balance between visual fidelity and memory efficiency across a variety of stylized images frequently seen in graphics workflows, especially for those showing non-uniformly distributed features and in low-bitrate regimes. Moreover, it supports hardware-friendly rapid random access for real-time usage, requiring only 0.3K MACs to decode a pixel. Through error-guided progressive optimization, Image-GS naturally constructs a smooth level-of-detail hierarchy. We demonstrate its versatility with several applications, including texture compression, semantics-aware compression, and joint image compression and restoration.
- Abstract(参考訳): 視覚データのエンコーディングとレンダリングのための有望なアプローチとして、ニューラルイメージ表現が登場した。
学習ベースのワークフローと組み合わせることで、視覚的忠実度とメモリフットプリントの間の大きなトレードオフを実演する。
しかし、この領域の既存の手法は、しばしばメモリや計算集約的な暗黙のモデルを最適に割り当てる固定データ構造に依存しており、リアルタイムグラフィックスアプリケーションにおいてその実用性を妨げている。
放射場レンダリングの最近の進歩に触発されて,2次元ガウスアンに基づくコンテンツ適応型画像表現であるImage-GSを導入する。
独自の差別化可能なレンダラーを活用することで、Image-GSは、アニソトロピックな色付き2Dガウシアンのグループを適応的に配置し、徐々に最適化することで、イメージを再構成する。
グラフィックワークフローでよく見られる様々なスタイリングされた画像、特に一様でない特徴を示すものや低ビットレートのレギュレーションに対して、視覚的忠実度とメモリ効率のバランスが良好である。
さらに、リアルタイム使用のためにハードウェアフレンドリーな高速ランダムアクセスをサポートし、ピクセルをデコードするために0.3KのMACしか必要としない。
エラー誘導プログレッシブ最適化により、Image-GSは自然にスムーズなレベル・オブ・ディテール階層を構築する。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
関連論文リスト
- Instant GaussianImage: A Generalizable and Self-Adaptive Image Representation via 2D Gaussian Splatting [13.439790810504851]
本稿では,2次元ガウス分割に基づく一般化可能で自己適応的な画像表現フレームワークを提案する。
提案手法では,粗いガウス表現を高速に生成するネットワークを用いて,最小限の微調整を行う。
我々の手法はガウス画像のレンダリング性能と非常に少ないイテレーションと短いトレーニング時間で一致または超えることを示す。
論文 参考訳(メタデータ) (2025-06-30T02:58:52Z) - LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization [37.236005953016175]
LightGenは、画像生成モデルのための効率的なトレーニングパラダイムである。
最先端(SOTA)テキスト・ツー・イメージモデルから知識を抽出し、コンパクトなMasked Autoregressiveアーキテクチャに変換する。
実験では、LightGenがSOTAモデルに匹敵する画像生成品質を達成することを確認した。
論文 参考訳(メタデータ) (2025-03-11T16:58:02Z) - EigenGS Representation: From Eigenspace to Gaussian Image Space [20.454762899389358]
EigenGSは、固有空間と画像空間のガウス表現を接続する効率的な変換パイプラインである。
EigenGSは直接2次元ガウスフィッティングよりも優れた再現性が得られることを示す。
結果は,様々な解像度と多様なカテゴリを持つ画像に対して,EigenGSの有効性と一般化能力を強調した。
論文 参考訳(メタデータ) (2025-03-10T15:27:03Z) - Large Images are Gaussians: High-Quality Large Image Representation with Levels of 2D Gaussian Splatting [21.629316414488027]
textbfLarge textbfImages are textbfGaussians (textbfLIG)。
論文 参考訳(メタデータ) (2025-02-13T07:48:56Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。
写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。
提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-06-04T15:17:37Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Raising The Limit Of Image Rescaling Using Auxiliary Encoding [7.9700865143145485]
近年、IRNのような画像再スケーリングモデルは、INNの双方向性を利用して、画像アップスケーリングのパフォーマンス限界を押し上げている。
本稿では,画像再スケーリング性能の限界をさらに押し上げるために,補助符号化モジュールを提案する。
論文 参考訳(メタデータ) (2023-03-12T20:49:07Z) - Adaptive Local Implicit Image Function for Arbitrary-scale
Super-resolution [61.95533972380704]
局所暗黙画像関数(LIIF)は、対応する座標を入力として、画素値が拡張される連続関数として画像を表す。
LIIFは任意のスケールの超解像タスクに適用でき、その結果、様々なアップスケーリング要因に対して単一の効率的かつ効率的なモデルが得られる。
この問題を軽減するために,新しい適応型局所像関数(A-LIIF)を提案する。
論文 参考訳(メタデータ) (2022-08-07T11:23:23Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Parallel Discrete Convolutions on Adaptive Particle Representations of
Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。
APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。
APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:40:05Z) - CUDA-Optimized real-time rendering of a Foveated Visual System [5.260841516691153]
本稿では,GPUを用いて高速(165Hz)でガウス画像(1920x1080)を効率よく生成する手法を提案する。
提案手法は生体人工エージェント間の空間変動処理の需要を満たし,既存システム上で容易にフォベーションを付加できる。
論文 参考訳(メタデータ) (2020-12-15T22:43:04Z) - Adversarial Generation of Continuous Images [31.92891885615843]
本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
論文 参考訳(メタデータ) (2020-11-24T11:06:40Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。