論文の概要: Scaling Non-Parametric Sampling with Representation
- arxiv url: http://arxiv.org/abs/2510.22196v1
- Date: Sat, 25 Oct 2025 07:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.943604
- Title: Scaling Non-Parametric Sampling with Representation
- Title(参考訳): 表現による非パラメトリックサンプリングのスケーリング
- Authors: Vincent Lu, Aaron Truong, Zeyu Yun, Yubei Chen,
- Abstract要約: 単純な非パラメトリック生成モデルは複雑な工学的トリックを取り除くために提案されている。
最小限のアーキテクチャにもかかわらず、モデルはMNISTと視覚的に魅力的なCIFAR-10画像の高忠実度サンプルを生成する。
モデルのホワイトボックスの性質は、モデルがどのように様々なイメージを一般化し生成するかを機械論的に理解することを可能にする。
- 参考スコア(独自算出の注目度): 8.813309990761686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling and architectural advances have produced strikingly photorealistic image generative models, yet their mechanisms still remain opaque. Rather than advancing scaling, our goal is to strip away complicated engineering tricks and propose a simple, non-parametric generative model. Our design is grounded in three principles of natural images-(i) spatial non-stationarity, (ii) low-level regularities, and (iii) high-level semantics-and defines each pixel's distribution from its local context window. Despite its minimal architecture and no training, the model produces high-fidelity samples on MNIST and visually compelling CIFAR-10 images. This combination of simplicity and strong empirical performance points toward a minimal theory of natural-image structure. The model's white-box nature also allows us to have a mechanistic understanding of how the model generalizes and generates diverse images. We study it by tracing each generated pixel back to its source images. These analyses reveal a simple, compositional procedure for "part-whole generalization", suggesting a hypothesis for how large neural network generative models learn to generalize.
- Abstract(参考訳): スケーリングとアーキテクチャの進歩は、驚くほどフォトリアリスティックな画像生成モデルを生み出してきたが、そのメカニズムはいまだに不透明である。
私たちの目標は、スケーリングを進めるのではなく、複雑なエンジニアリングのトリックを取り除き、単純でパラメトリックでない生成モデルを提案することです。
私たちのデザインは自然画像の3つの原則に基づいています。
(i)空間的非定常性
(二)低水準規則
(iii)高レベルのセマンティクスと各ピクセルの分布をそれぞれのローカルコンテキストウィンドウから定義する。
最小限のアーキテクチャとトレーニングがないにもかかわらず、モデルはMNISTと視覚的に魅力的なCIFAR-10画像上で高忠実度サンプルを生成する。
この単純さと強い経験的性能の組合せは、自然像構造の最小理論に向けられている。
モデルのホワイトボックスの性質は、モデルがどのように様々なイメージを一般化し生成するかを機械論的に理解することを可能にする。
生成した各ピクセルを元の画像に戻して研究する。
これらの分析により、"部分全体一般化"のための単純で構成的な手順が明らかとなり、大規模なニューラルネットワーク生成モデルがどのように一般化するかの仮説が示唆された。
関連論文リスト
- Detecting the Undetectable: Combining Kolmogorov-Arnold Networks and MLP for AI-Generated Image Detection [0.0]
本稿では,最先端な生成AIモデルによって生成された画像の堅牢な識別が可能な,新しい検出フレームワークを提案する。
従来の多層パーセプトロン(MLP)とセマンティックイメージ埋め込みを統合した分類システムを提案する。
論文 参考訳(メタデータ) (2024-08-18T06:00:36Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Neural Knitworks: Patched Neural Implicit Representation Networks [1.0470286407954037]
画像合成を実現する自然画像の暗黙的表現学習のためのアーキテクチャであるKnitworkを提案する。
私たちの知る限りでは、画像のインペインティング、超解像化、デノイングといった合成作業に適した座標ベースのパッチの実装は、これが初めてである。
その結果, ピクセルではなくパッチを用いた自然な画像のモデリングにより, 忠実度が高い結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T13:10:46Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - ExSinGAN: Learning an Explainable Generative Model from a Single Image [0.0]
構造,意味,テクスチャに関する分布を連続的に学習することで,複雑な条件分布の学習を簡略化する階層的フレームワークを提案する。
画像から説明可能な生成モデルを学ぶために, 3つのカスケードganからなるexsinganを設計する。
ExSinGANは、前述のように画像の内部パッチからだけでなく、GANインバージョン技術によって得られた外部の先行データからも学習される。
論文 参考訳(メタデータ) (2021-05-16T04:38:46Z) - Unsupervised Layered Image Decomposition into Object Prototypes [39.20333694585477]
自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
論文 参考訳(メタデータ) (2021-04-29T18:02:01Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。