論文の概要: Recursive Neural Programs: Variational Learning of Image Grammars and
Part-Whole Hierarchies
- arxiv url: http://arxiv.org/abs/2206.08462v1
- Date: Thu, 16 Jun 2022 22:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-21 06:53:15.188223
- Title: Recursive Neural Programs: Variational Learning of Image Grammars and
Part-Whole Hierarchies
- Title(参考訳): 帰納的ニューラルプログラム:画像文法と部分ホール階層の変分学習
- Authors: Ares Fisher, Rajesh P.N. Rao
- Abstract要約: 本稿では,部分階層学習問題に対処するため,再帰的ニューラルプログラム(RNP)を導入する。
RNPは、部分階層学習問題に対処する最初の神経生成モデルである。
以上の結果から,RNPはオブジェクトやシーンを直感的で説明可能な構成方法であることがわかった。
- 参考スコア(独自算出の注目度): 1.5990720051907859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human vision involves parsing and representing objects and scenes using
structured representations based on part-whole hierarchies. Computer vision and
machine learning researchers have recently sought to emulate this capability
using capsule networks, reference frames and active predictive coding, but a
generative model formulation has been lacking. We introduce Recursive Neural
Programs (RNPs), which, to our knowledge, is the first neural generative model
to address the part-whole hierarchy learning problem. RNPs model images as
hierarchical trees of probabilistic sensory-motor programs that recursively
reuse learned sensory-motor primitives to model an image within different
reference frames, forming recursive image grammars. We express RNPs as
structured variational autoencoders (sVAEs) for inference and sampling, and
demonstrate parts-based parsing, sampling and one-shot transfer learning for
MNIST, Omniglot and Fashion-MNIST datasets, demonstrating the model's
expressive power. Our results show that RNPs provide an intuitive and
explainable way of composing objects and scenes, allowing rich compositionality
and intuitive interpretations of objects in terms of part-whole hierarchies.
- Abstract(参考訳): 人間のビジョンは、部分階層に基づいた構造化表現を使用してオブジェクトとシーンを解析し表現することである。
コンピュータビジョンと機械学習の研究者は最近、カプセルネットワーク、参照フレーム、アクティブな予測符号化を使ってこの機能をエミュレートしようとしたが、生成モデルの定式化は欠けていた。
再帰的ニューラルプログラム(Recursive Neural Programs, RNP)を導入し, 階層学習の問題に対処する最初のニューラル生成モデルである。
RNPは、学習された知覚運動子プリミティブを再帰的に再利用し、異なる参照フレーム内で画像をモデル化し、再帰的な画像文法を形成する確率感覚運動プログラムの階層木として画像をモデル化する。
我々は,構造的変分オートエンコーダ(svaes)としてrnpsを表現し,mnist,omniglot,fashion-mnistデータセットの部品ベースの解析,サンプリング,ワンショット転送学習を実演し,モデルの表現力を示す。
以上の結果から,rnpsは,オブジェクトとシーンを直感的かつ説明可能な方法で構成し,部分階層という観点でオブジェクトの豊かな構成性と直感的解釈を可能にする。
関連論文リスト
- OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning [49.12350554270196]
モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
論文 参考訳(メタデータ) (2023-10-28T20:12:58Z) - On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。
我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。
さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - A Deep Neural Framework for Image Caption Generation Using GRU-Based
Attention Mechanism [5.855671062331371]
本研究では、事前学習された畳み込みニューラルネットワーク(CNN)を用いて画像から特徴を抽出し、特徴を注意機構と統合し、繰り返しニューラルネットワーク(RNN)を用いてキャプションを作成するシステムを開発することを目的とする。
MSCOCOデータセットでは、実験結果が最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2022-03-03T09:47:59Z) - Active Predictive Coding Networks: A Neural Solution to the Problem of
Learning Reference Frames and Part-Whole Hierarchies [1.5990720051907859]
APCN(Active Predictive Coding Networks)を紹介する。
APCNは、人工知能と脳モデリングの分野において、Hintonらによって引き起こされた主要な問題を解決するニューラルネットワークの新しいクラスである。
APCNは(a)画像を部分全体階層に解析し、(b)構成表現を学習し、(c)未知のオブジェクトのクラスにその知識を移すことを実証する。
論文 参考訳(メタデータ) (2022-01-14T21:22:48Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。