論文の概要: Neurosymbolic Grounding for Compositional World Models
- arxiv url: http://arxiv.org/abs/2310.12690v1
- Date: Thu, 19 Oct 2023 12:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:25:48.743966
- Title: Neurosymbolic Grounding for Compositional World Models
- Title(参考訳): 構成世界モデルのためのニューロシンボリックグラウンドディング
- Authors: Atharva Sehgal, Arya Grayeli, Jennifer J. Sun, Swarat Chaudhuri
- Abstract要約: オブジェクト中心の世界モデリングのためのフレームワークであるCosmosを紹介する。
コスモスの背後にある中心的な洞察は、新しい形態のニューロシンボリックグラウンドを使うことである。
本稿では,このフレームワークが世界モデリングにおけるCGの新たな最先端技術を確立していることを示す。
- 参考スコア(独自算出の注目度): 14.686490672691056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Cosmos, a framework for object-centric world modeling that is
designed for compositional generalization (CG), i.e., high performance on
unseen input scenes obtained through the composition of known visual "atoms."
The central insight behind Cosmos is the use of a novel form of neurosymbolic
grounding. Specifically, the framework introduces two new tools: (i)
neurosymbolic scene encodings, which represent each entity in a scene using a
real vector computed using a neural encoder, as well as a vector of composable
symbols describing attributes of the entity, and (ii) a neurosymbolic attention
mechanism that binds these entities to learned rules of interaction. Cosmos is
end-to-end differentiable; also, unlike traditional neurosymbolic methods that
require representations to be manually mapped to symbols, it computes an
entity's symbolic attributes using vision-language foundation models. Through
an evaluation that considers two different forms of CG on an established
blocks-pushing domain, we show that the framework establishes a new
state-of-the-art for CG in world modeling.
- Abstract(参考訳): 本稿では,オブジェクト中心の世界モデリングのためのフレームワークであるcosmosについて紹介する。これは合成汎化(cg)のために設計されたもので,既知の視覚的"原子"の構成により得られた,目に見えない入力シーンにおける高いパフォーマンスを示す。
cosmosの背景にある中心的な洞察は、新しい形態のニューロシンボリック・グラウンドングの使用である。
具体的には、このフレームワークには2つの新しいツールがある。
(i)ニューラルエンコーダを用いて計算された実ベクトルを用いてシーン内の各エンティティを表すニューロシンボリックシーンエンコーディング、及びその実体の属性を記述する合成可能なシンボルのベクトル
(ii)これらの実体を相互作用の学習規則に結びつける神経象徴的注意機構。
cosmosはエンドツーエンドの微分可能であり、また、表現を記号に手作業でマッピングする必要がある従来の神経シンボリック手法とは異なり、視覚言語の基礎モデルを用いてエンティティの象徴的属性を計算する。
確立されたブロック処理領域におけるCGの2つの異なる形態を考慮した評価を通じて,本フレームワークが世界モデリングにおけるCGの新たな最先端技術を確立することを示す。
関連論文リスト
- Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols [0.8331498366387238]
この研究は、画像中の物体の空間的構成を見つけるために、ニューロシンボリックプログラミング(推論)と言語ビジョンモデル(学習)を組み合わせた最初のものである。
床に捨てられた道具を見つけ, パイプを漏らすことにより, 有効性を示す。
論文 参考訳(メタデータ) (2024-07-18T10:40:22Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning [49.12350554270196]
モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
論文 参考訳(メタデータ) (2023-10-28T20:12:58Z) - On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。
我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。
さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - Rosetta Neurons: Mining the Common Units in a Model Zoo [33.514508896870346]
我々は、様々なモデルにまたがって「ロセッタニューロン」と呼ばれる共通機能の存在を実証する。
本稿では,ロゼッタニューロンの辞書を複数の一般的な視覚モデルでマイニングするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:54Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - pix2rule: End-to-end Neuro-symbolic Rule Learning [84.76439511271711]
本稿では,画像のオブジェクトへの処理,学習関係,論理規則に関する完全なニューロシンボリックな手法を提案する。
主な貢献は、シンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。
我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-06-14T15:19:06Z) - Generative Neurosymbolic Machines [26.364503276512153]
記号的表現と分散表現の再構成は、現在のディープラーニングの限界を解決できる重要な課題である。
本稿では、分布表現とシンボル表現の利点を組み合わせた生成モデルである生成型ニューロシンボリックマシンを提案し、シンボル成分の構造化表現と密度ベース生成の両方をサポートする。
論文 参考訳(メタデータ) (2020-10-23T04:02:13Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。