論文の概要: Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
- arxiv url: http://arxiv.org/abs/2509.15591v1
- Date: Fri, 19 Sep 2025 04:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.000385
- Title: Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification
- Title(参考訳): Latent Zoning Network: 生成モデリング、表現学習、分類のための統一原則
- Authors: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin,
- Abstract要約: ジェネレーティブモデリング、表現学習、分類は機械学習(ML)における3つの中核的な問題である
この目標に向けたステップとして、LZN(Latent Zoning Network)を紹介します。
それぞれのデータ型(画像、テキスト、ラベルなど)は、サンプルを非結合のラテントゾーンにマッピングするエンコーダと、ラテントをデータにマッピングするデコーダを備えている。
- 参考スコア(独自算出の注目度): 32.85308473816482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tasks. Each data type (e.g., images, text, labels) is equipped with an encoder that maps samples to disjoint latent zones, and a decoder that maps latents back to data. ML tasks are expressed as compositions of these encoders and decoders: for example, label-conditional image generation uses a label encoder and image decoder; image embedding uses an image encoder; classification uses an image encoder and label decoder. We demonstrate the promise of LZN in three increasingly complex scenarios: (1) LZN can enhance existing models (image generation): When combined with the SoTA Rectified Flow model, LZN improves FID on CIFAR10 from 2.76 to 2.59-without modifying the training objective. (2) LZN can solve tasks independently (representation learning): LZN can implement unsupervised representation learning without auxiliary loss functions, outperforming the seminal MoCo and SimCLR methods by 9.3% and 0.2%, respectively, on downstream linear classification on ImageNet. (3) LZN can solve multiple tasks simultaneously (joint generation and classification): With image and label encoders/decoders, LZN performs both tasks jointly by design, improving FID and achieving SoTA classification accuracy on CIFAR10. The code and trained models are available at https://github.com/microsoft/latent-zoning-networks. The project website is at https://zinanlin.me/blogs/latent_zoning_networks.html.
- Abstract(参考訳): 生成的モデリング、表現学習、分類は機械学習(ML)の3つの中核的な問題であるが、その最新技術(SoTA)ソリューションはほとんど相容れないままである。
統一された原理は3つすべてに対処できるだろうか?
このような統合は、MLパイプラインを簡素化し、タスク間のシナジーを向上する可能性がある。
この目標に向けたステップとして、LZN(Latent Zoning Network)を紹介します。
中心となるLZNは、すべてのタスクにまたがる情報をエンコードする共有ガウス潜在空間を生成する。
それぞれのデータ型(画像、テキスト、ラベルなど)は、サンプルを非結合のラテントゾーンにマッピングするエンコーダと、ラテントをデータにマッピングするデコーダを備えている。
例えば、ラベル条件の画像生成はラベルエンコーダとイメージデコーダを使い、画像埋め込みはイメージエンコーダを使い、分類はイメージエンコーダとラベルデコーダを使用する。
1) LZNは既存のモデル(画像生成)を拡張できる: SoTA Rectified Flowモデルと組み合わせると、LZNはトレーニング対象を変更することなく、CIFAR10上のFIDを2.76から2.59に改善する。
LZNは補助的損失関数なしで教師なしの表現学習を実装でき、ImageNet上の下流線形分類において、セミナルMoCoとSimCLRメソッドをそれぞれ9.3%、0.2%上回っている。
(3) 画像およびラベルエンコーダ/デコーダにより、LZNはFIDを改善し、CIFAR10上でSoTA分類精度を達成する。
コードとトレーニングされたモデルはhttps://github.com/microsoft/latent-zoning-networks.comで公開されている。
プロジェクトのWebサイトはhttps://zinanlin.me/blogs/latent_zoning_networks.htmlにある。
関連論文リスト
- FLIM-based Salient Object Detection Networks with Adaptive Decoders [40.26047220842738]
本研究は、オブジェクト検出(SOD)のための軽量モデルよりも数百倍軽量なフライウェイトネットワークを提案する。
FLIMエンコーダと適応デコーダを組み合わせて、所定の関数で各入力画像の重みを推定する。
本稿では,2つのSODタスクに対してFLIMモデルと適応デコーダを比較し,その2つの軽量ネットワークと,バックプロパゲーションによってトレーニングされたデコーダを備えたFLIMネットワークと,ラベル付きマーカーがデコーダの重みを定義するFLIMネットワークを比較した。
論文 参考訳(メタデータ) (2025-04-29T15:44:02Z) - Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。
本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文 参考訳(メタデータ) (2024-12-08T05:49:58Z) - Worst-Case Morphs using Wasserstein ALI and Improved MIPGAN [5.1899190294312385]
顔認識システムが未知であっても,最悪のケース形態を近似できる形態素生成手法を提案する。
提案手法は,Adversarially Learned Inference (ALI) に基づいており,グラディエント・ペナルティ(Gradient Penalty)で訓練されたWasserstein GANsの概念を用いている。
既存のStyleGANをベースとした形態生成装置であるMIPGANを改良するために,我々の研究成果をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-10-12T14:40:24Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Large-Scale Pre-training for Person Re-identification with Noisy Labels [125.49696935852634]
雑音ラベル(PNL)を利用した大規模事前学習フレームワークを開発した。
原則として、これらの3つのモジュールの合同学習は、1つのプロトタイプに類似したクラスタの例だけでなく、プロトタイプの割り当てに基づいてノイズラベルを修正します。
このシンプルな事前学習タスクは、ベルやwhiを使わずに"LUPerson-NL"でSOTA Re-ID表現をスクラッチから学習するスケーラブルな方法を提供する。
論文 参考訳(メタデータ) (2022-03-30T17:59:58Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Generate High Resolution Images With Generative Variational Autoencoder [0.0]
本稿では,高解像度画像を生成する新しいニューラルネットワークを提案する。
エンコーダをそのまま使用しながら,VAEのデコーダを識別器に置き換える。
我々は、MNIST、LSUN、CelebAの3つの異なるデータセットでネットワークを評価した。
論文 参考訳(メタデータ) (2020-08-12T20:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。