Fugu-MT 論文翻訳(概要): Structured World Modeling via Semantic Vector Quantization

論文の概要: Structured World Modeling via Semantic Vector Quantization

arxiv url: http://arxiv.org/abs/2402.01203v1
Date: Fri, 2 Feb 2024 08:13:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 16:27:03.076185
Title: Structured World Modeling via Semantic Vector Quantization
Title（参考訳）: セマンティックベクトル量子化による構造的世界モデリング
Authors: Yi-Fu Wu, Minseung Lee, Sungjin Ahn
Abstract要約: 意味的ニューラルな離散表現学習への第1のアプローチを提案する。提案モデルはセマンティックベクトル量子変分オートコーダ(SVQ)と呼ばれ、教師なしオブジェクト指向学習の最近の進歩を活用している。 VQ-VAEやそれ以前のオブジェクト中心生成モデルのような非意味ベクトル量子化法と比較して,本モデルの方が優れた生成性能が得られることがわかった。
参考スコア（独自算出の注目度）: 21.275678909505647
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural discrete representations are crucial components of modern neural networks. However, their main limitation is that the primary strategies such as VQ-VAE can only provide representations at the patch level. Therefore, one of the main goals of representation learning, acquiring structured, semantic, and compositional abstractions such as the color and shape of an object, remains elusive. In this paper, we present the first approach to semantic neural discrete representation learning. The proposed model, called Semantic Vector-Quantized Variational Autoencoder (SVQ), leverages recent advances in unsupervised object-centric learning to address this limitation. Specifically, we observe that a simple approach quantizing at the object level poses a significant challenge and propose constructing scene representations hierarchically, from low-level discrete concept schemas to object representations. Additionally, we suggest a novel method for structured semantic world modeling by training a prior over these representations, enabling the ability to generate images by sampling the semantic properties of the objects in the scene. In experiments on various 2D and 3D object-centric datasets, we find that our model achieves superior generation performance compared to non-semantic vector quantization methods such as VQ-VAE and previous object-centric generative models. Furthermore, we find that the semantic discrete representations can solve downstream scene understanding tasks that require reasoning about the properties of different objects in the scene.
Abstract（参考訳）: ニューラル離散表現は現代のニューラルネットワークの重要な構成要素である。しかし、その主な制限は、VQ-VAEのような主要な戦略がパッチレベルでしか表現できないことである。したがって、表現学習、構造的、意味的、構成的抽象概念(例えば物体の色や形状)の主目的の一つは、いまだ解明されていない。本稿では,セマンティックニューラル離散表現学習への第1のアプローチを提案する。提案手法はsvq(semantic vector-quantized variational autoencoder)と呼ばれ、教師なしオブジェクト中心学習の最近の進歩を活用している。具体的には、オブジェクトレベルで定量化する単純なアプローチが大きな課題となり、低レベルの離散概念スキーマからオブジェクト表現まで、階層的にシーン表現を構築することを提案する。さらに,これらの表現に対して事前学習を行い,シーン内のオブジェクトの意味的特性をサンプリングして画像を生成することが可能な構造的意味世界モデリング手法を提案する。 VQ-VAEやそれ以前のオブジェクト中心生成モデルのような非意味なベクトル量子化手法と比較して,本モデルでは生成性能が優れていることがわかった。さらに,シーン内の異なるオブジェクトの特性の推論を必要とする下流のシーン理解タスクを,セマンティックな離散表現で解決できることがわかった。

関連論文リスト

Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文参考訳（メタデータ） (2025-05-16T13:49:43Z)
On the Geometry of Semantics in Next-token Prediction [27.33243506775655]
現代の言語モデルは、次世代の予測によってのみ訓練されているにもかかわらず、言語的な意味を捉えている。本研究では,この概念的にシンプルな学習目標が,潜在意味概念と文法概念を抽出し,符号化するモデルにどのように寄与するかを検討する。我々の研究は、分布意味論、神経崩壊幾何学、ニューラルネットワークトレーニングのダイナミクスを橋渡しし、NTPの暗黙のバイアスがどのように言語モデルにおける意味表現の出現を形作るかについての洞察を提供する。
論文参考訳（メタデータ） (2025-05-13T08:46:04Z)
Analysis of Argument Structure Constructions in a Deep Recurrent Language Model [0.0]
本稿では,再帰型ニューラルネットワークモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。その結果, 文表現は, 全層にまたがる4つのASCに対応する異なるクラスタを形成することがわかった。これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
論文参考訳（メタデータ） (2024-08-06T09:27:41Z)
Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-07-25T10:08:37Z)
LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文参考訳（メタデータ） (2023-09-24T05:43:19Z)
On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文参考訳（メタデータ） (2023-08-03T19:29:35Z)
Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文参考訳（メタデータ） (2023-06-29T00:24:42Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Pretraining on Interactions for Learning Grounded Affordance Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文参考訳（メタデータ） (2022-07-05T19:19:53Z)
Recursive Neural Programs: Variational Learning of Image Grammars and Part-Whole Hierarchies [1.5990720051907859]
本稿では,部分階層学習問題に対処するため,再帰的ニューラルプログラム(RNP)を導入する。 RNPは、部分階層学習問題に対処する最初の神経生成モデルである。以上の結果から,RNPはオブジェクトやシーンを直感的で説明可能な構成方法であることがわかった。
論文参考訳（メタデータ） (2022-06-16T22:02:06Z)
Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文参考訳（メタデータ） (2022-03-19T06:28:30Z)
Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文参考訳（メタデータ） (2021-11-13T19:54:15Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。 HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文参考訳（メタデータ） (2021-03-02T01:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。