論文の概要: Neurosymbolic Grounding for Compositional World Models
- arxiv url: http://arxiv.org/abs/2310.12690v2
- Date: Fri, 10 May 2024 09:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:27:06.865175
- Title: Neurosymbolic Grounding for Compositional World Models
- Title(参考訳): 構成世界モデルのためのニューロシンボリックグラウンドディング
- Authors: Atharva Sehgal, Arya Grayeli, Jennifer J. Sun, Swarat Chaudhuri,
- Abstract要約: コンポジション一般化のためのオブジェクト中心の世界モデリングフレームワークであるCosmosを紹介する。
コスモスの背後にある中心的な洞察は、新しい形態のニューロシンボリックグラウンドを使うことである。
我々は,このフレームワークが世界モデリングにおけるCompGenの新たな最先端技術を確立していることを示す。
- 参考スコア(独自算出の注目度): 13.443896087506563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Cosmos, a framework for object-centric world modeling that is designed for compositional generalization (CompGen), i.e., high performance on unseen input scenes obtained through the composition of known visual "atoms." The central insight behind Cosmos is the use of a novel form of neurosymbolic grounding. Specifically, the framework introduces two new tools: (i) neurosymbolic scene encodings, which represent each entity in a scene using a real vector computed using a neural encoder, as well as a vector of composable symbols describing attributes of the entity, and (ii) a neurosymbolic attention mechanism that binds these entities to learned rules of interaction. Cosmos is end-to-end differentiable; also, unlike traditional neurosymbolic methods that require representations to be manually mapped to symbols, it computes an entity's symbolic attributes using vision-language foundation models. Through an evaluation that considers two different forms of CompGen on an established blocks-pushing domain, we show that the framework establishes a new state-of-the-art for CompGen in world modeling. Artifacts are available at: https://trishullab.github.io/cosmos-web/
- Abstract(参考訳): コンポジション一般化(CompGen)のためのオブジェクト中心の世界モデリングフレームワークであるCosmosを紹介する。
コスモスの背後にある中心的な洞察は、新しい形態のニューロシンボリックグラウンドを使うことである。
具体的には、フレームワークには2つの新しいツールが導入されている。
一 ニューロエンコーダを用いて計算された実ベクトルを用いてシーン内の各実体を表現するニューロシンボリックシーンエンコーディング及びその実体の属性を記述した構成可能なシンボルのベクター
(ii)これらの物質を相互作用の学習規則に結合する神経象徴的注意機構。
コスモスは終端から終端の微分可能であり、表現を記号に手動でマッピングする必要がある伝統的なニューロシンボリック法とは異なり、視覚基礎モデルを用いて実体の象徴的属性を計算する。
確立されたブロック処理ドメイン上でCompGenの2つの異なる形式を考慮した評価を通じて,このフレームワークが世界モデリングにおけるCompGenの新たな最先端技術を確立していることを示す。
アーティファクトは、https://trishullab.github.io/cosmos-web/で入手できる。
関連論文リスト
- Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols [0.8331498366387238]
この研究は、画像中の物体の空間的構成を見つけるために、ニューロシンボリックプログラミング(推論)と言語ビジョンモデル(学習)を組み合わせた最初のものである。
床に捨てられた道具を見つけ, パイプを漏らすことにより, 有効性を示す。
論文 参考訳(メタデータ) (2024-07-18T10:40:22Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning [49.12350554270196]
モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
論文 参考訳(メタデータ) (2023-10-28T20:12:58Z) - On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。
我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。
さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - Rosetta Neurons: Mining the Common Units in a Model Zoo [33.514508896870346]
我々は、様々なモデルにまたがって「ロセッタニューロン」と呼ばれる共通機能の存在を実証する。
本稿では,ロゼッタニューロンの辞書を複数の一般的な視覚モデルでマイニングするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:54Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - pix2rule: End-to-end Neuro-symbolic Rule Learning [84.76439511271711]
本稿では,画像のオブジェクトへの処理,学習関係,論理規則に関する完全なニューロシンボリックな手法を提案する。
主な貢献は、シンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。
我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-06-14T15:19:06Z) - Generative Neurosymbolic Machines [26.364503276512153]
記号的表現と分散表現の再構成は、現在のディープラーニングの限界を解決できる重要な課題である。
本稿では、分布表現とシンボル表現の利点を組み合わせた生成モデルである生成型ニューロシンボリックマシンを提案し、シンボル成分の構造化表現と密度ベース生成の両方をサポートする。
論文 参考訳(メタデータ) (2020-10-23T04:02:13Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。