論文の概要: Structured World Modeling via Semantic Vector Quantization
- arxiv url: http://arxiv.org/abs/2402.01203v1
- Date: Fri, 2 Feb 2024 08:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:27:03.076185
- Title: Structured World Modeling via Semantic Vector Quantization
- Title(参考訳): セマンティックベクトル量子化による構造的世界モデリング
- Authors: Yi-Fu Wu, Minseung Lee, Sungjin Ahn
- Abstract要約: 意味的ニューラルな離散表現学習への第1のアプローチを提案する。
提案モデルはセマンティックベクトル量子変分オートコーダ(SVQ)と呼ばれ、教師なしオブジェクト指向学習の最近の進歩を活用している。
VQ-VAEやそれ以前のオブジェクト中心生成モデルのような非意味ベクトル量子化法と比較して,本モデルの方が優れた生成性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 21.275678909505647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural discrete representations are crucial components of modern neural
networks. However, their main limitation is that the primary strategies such as
VQ-VAE can only provide representations at the patch level. Therefore, one of
the main goals of representation learning, acquiring structured, semantic, and
compositional abstractions such as the color and shape of an object, remains
elusive. In this paper, we present the first approach to semantic neural
discrete representation learning. The proposed model, called Semantic
Vector-Quantized Variational Autoencoder (SVQ), leverages recent advances in
unsupervised object-centric learning to address this limitation. Specifically,
we observe that a simple approach quantizing at the object level poses a
significant challenge and propose constructing scene representations
hierarchically, from low-level discrete concept schemas to object
representations. Additionally, we suggest a novel method for structured
semantic world modeling by training a prior over these representations,
enabling the ability to generate images by sampling the semantic properties of
the objects in the scene. In experiments on various 2D and 3D object-centric
datasets, we find that our model achieves superior generation performance
compared to non-semantic vector quantization methods such as VQ-VAE and
previous object-centric generative models. Furthermore, we find that the
semantic discrete representations can solve downstream scene understanding
tasks that require reasoning about the properties of different objects in the
scene.
- Abstract(参考訳): ニューラル離散表現は現代のニューラルネットワークの重要な構成要素である。
しかし、その主な制限は、VQ-VAEのような主要な戦略がパッチレベルでしか表現できないことである。
したがって、表現学習、構造的、意味的、構成的抽象概念(例えば物体の色や形状)の主目的の一つは、いまだ解明されていない。
本稿では,セマンティックニューラル離散表現学習への第1のアプローチを提案する。
提案手法はsvq(semantic vector-quantized variational autoencoder)と呼ばれ、教師なしオブジェクト中心学習の最近の進歩を活用している。
具体的には、オブジェクトレベルで定量化する単純なアプローチが大きな課題となり、低レベルの離散概念スキーマからオブジェクト表現まで、階層的にシーン表現を構築することを提案する。
さらに,これらの表現に対して事前学習を行い,シーン内のオブジェクトの意味的特性をサンプリングして画像を生成することが可能な構造的意味世界モデリング手法を提案する。
VQ-VAEやそれ以前のオブジェクト中心生成モデルのような非意味なベクトル量子化手法と比較して,本モデルでは生成性能が優れていることがわかった。
さらに,シーン内の異なるオブジェクトの特性の推論を必要とする下流のシーン理解タスクを,セマンティックな離散表現で解決できることがわかった。
関連論文リスト
- On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。
我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。
さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Self-Supervised Category-Level Articulated Object Pose Estimation with
Part-Level SE(3) Equivariance [33.10167928198986]
カテゴリーレベルの調音オブジェクトポーズ推定は、未知の調音オブジェクトの調音オブジェクトポーズの階層を既知のカテゴリから推定することを目的としている。
我々は,人間ラベルを使わずにこの問題を解決する,新たな自己管理戦略を提案する。
論文 参考訳(メタデータ) (2023-02-28T03:02:11Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - GENESIS-V2: Inferring Unordered Object Representations without Iterative
Refinement [26.151968529063762]
我々は、RNNや反復的精細化を使わずに、可変数のオブジェクト表現を推論できる新しいモデル GENESIS-V2 を開発した。
GENESIS-V2は、既存の合成データセット上で、監視されていない画像分割とオブジェクト中心のシーン生成の従来の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-20T14:59:27Z) - Neural Parts: Learning Expressive 3D Shape Abstractions with Invertible
Neural Networks [118.20778308823779]
Invertible Neural Network (INN) を用いてプリミティブを定義する新しい3次元プリミティブ表現を提案する。
私たちのモデルは、部品レベルの監督なしに3Dオブジェクトを意味的に一貫した部品配置に解析することを学びます。
論文 参考訳(メタデータ) (2021-03-18T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。