論文の概要: Investigating Permutation-Invariant Discrete Representation Learning for Spatially Aligned Images
- arxiv url: http://arxiv.org/abs/2604.01843v1
- Date: Thu, 02 Apr 2026 09:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.664488
- Title: Investigating Permutation-Invariant Discrete Representation Learning for Spatially Aligned Images
- Title(参考訳): 空間配向画像に対する置換不変離散表現学習の検討
- Authors: Jamie S. J. Stirling, Noura Al-Moubayed, Hubert P. H. Shum,
- Abstract要約: 本稿では,置換不変ベクトル量子化オートエンコーダ(PI-VQ)を提案する。
この制約は、グローバルなセマンティックな特徴を捕捉し、学習前の学習なしに画像間の直接的アクセスを可能にする。
我々は,CelebA,CelebA-HQ,FFHQのPI-VQを評価し,提案手法を用いて合成した画像の競合精度,密度,カバレッジの指標を得た。
- 参考スコア(独自算出の注目度): 20.603403172654726
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vector quantization approaches (VQ-VAE, VQ-GAN) learn discrete neural representations of images, but these representations are inherently position-dependent: codes are spatially arranged and contextually entangled, requiring autoregressive or diffusion-based priors to model their dependencies at sample time. In this work, we ask whether positional information is necessary for discrete representations of spatially aligned data. We propose the permutation-invariant vector-quantized autoencoder (PI-VQ), in which latent codes are constrained to carry no positional information. We find that this constraint encourages codes to capture global, semantic features, and enables direct interpolation between images without a learned prior. To address the reduced information capacity of permutation-invariant representations, we introduce matching quantization, a vector quantization algorithm based on optimal bipartite matching that increases effective bottleneck capacity by $3.5\times$ relative to naive nearest-neighbour quantization. The compositional structure of the learned codes further enables interpolation-based sampling, allowing synthesis of novel images in a single forward pass. We evaluate PI-VQ on CelebA, CelebA-HQ and FFHQ, obtaining competitive precision, density and coverage metrics for images synthesised with our approach. We discuss the trade-offs inherent to position-free representations, including separability and interpretability of the latent codes, pointing to numerous directions for future work.
- Abstract(参考訳): ベクトル量子化アプローチ(VQ-VAE、VQ-GAN)は、画像の離散的な神経表現を学習するが、これらの表現は本質的に位置依存である。
本研究では,空間的に整列したデータの離散表現には位置情報が必要であるかどうかを問う。
本稿では,置換不変ベクトル量子化オートエンコーダ(PI-VQ)を提案する。
この制約は,グローバルなセマンティックな特徴を捕捉し,事前の学習なしに画像間の直接補間を可能にする。
置換不変表現の少ない情報容量に対処するために、最適二部マッチングに基づくベクトル量子化アルゴリズムであるマッチング量子化を導入する。
学習符号の構成構造はさらに補間に基づくサンプリングを可能にし、単一の前方通過で新しい画像の合成を可能にする。
我々は,CelebA,CelebA-HQ,FFHQのPI-VQを評価し,提案手法を用いて合成した画像の競合精度,密度,カバレッジの指標を得た。
本稿では,位置自由表現に固有のトレードオフについて論じる。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Single-pass Adaptive Image Tokenization for Minimum Program Search [75.59409288259151]
本稿では,単一前方通過における画像に対する適切なトークン数を予測する単一パス適応型トークン化器KARLを提案する。
KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
論文 参考訳(メタデータ) (2025-07-10T17:59:53Z) - Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文 参考訳(メタデータ) (2025-06-24T22:43:36Z) - Style Quantization for Data-Efficient GAN Training [18.40243591024141]
限られたデータ設定の下では、GANは入力潜在空間をナビゲートし効果的に活用するのに苦労することが多い。
一貫性の整合性を高める新しいアプローチである textitSQ-GAN を提案する。
実験は判別器の堅牢性と生成品質の両方において顕著な改善を示した。
論文 参考訳(メタデータ) (2025-03-31T16:28:44Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。