論文の概要: OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning
- arxiv url: http://arxiv.org/abs/2310.18807v1
- Date: Sat, 28 Oct 2023 20:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:31:53.003635
- Title: OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning
- Title(参考訳): OC-NMN:ビジュアルアナロジカル推論のためのオブジェクト中心合成ニューラルネットワーク
- Authors: Rim Assouel, Pau Rodriguez, Perouz Taslakian, David Vazquez, Yoshua
Bengio
- Abstract要約: モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
- 参考スコア(独自算出の注目度): 49.12350554270196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key aspect of human intelligence is the ability to imagine -- composing
learned concepts in novel ways -- to make sense of new scenarios. Such capacity
is not yet attained for machine learning systems. In this work, in the context
of visual reasoning, we show how modularity can be leveraged to derive a
compositional data augmentation framework inspired by imagination. Our method,
denoted Object-centric Compositional Neural Module Network (OC-NMN), decomposes
visual generative reasoning tasks into a series of primitives applied to
objects without using a domain-specific language. We show that our modular
architectural choices can be used to generate new training tasks that lead to
better out-of-distribution generalization. We compare our model to existing and
new baselines in proposed visual reasoning benchmark that consists of applying
arithmetic operations to MNIST digits.
- Abstract(参考訳): 人間の知性の重要な側面は、新しいシナリオを理解するために、新しい方法で学習された概念を想像する能力である。
このような能力は機械学習システムでは実現されていない。
本稿では,視覚的推論の文脈において,想像力に触発された構成的データ拡張フレームワークを導出するために,モジュラリティをいかに活用できるかを示す。
本手法は,オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて,視覚生成推論タスクを,ドメイン固有言語を使わずにオブジェクトに適用した一連のプリミティブに分解する。
モジュラーアーキテクチャの選択は、配布外一般化の改善につながる新しいトレーニングタスクを生成するために使用できることを示す。
我々は,MNIST桁に算術演算を適用した視覚推論ベンチマークにおいて,既存のベースラインと新しいベースラインを比較した。
関連論文リスト
- Sketch-Plan-Generalize: Continual Few-Shot Learning of Inductively Generalizable Spatial Concepts [6.932008652560561]
我々は、観測されたインスタンスを説明するsuccinct$ program$表現を推論する学習アーキテクチャを模索する。
提案手法は,大規模言語モデルのコード生成能力とニューラルネットワークの基底表現の利点を組み合わせたものである。
論文 参考訳(メタデータ) (2024-04-11T14:09:41Z) - Seeing is Believing: Brain-Inspired Modular Training for Mechanistic
Interpretability [5.15188009671301]
Brain-Inspired Modular Trainingは、ニューラルネットワークをよりモジュール的で解釈可能なものにする方法である。
BIMTは、ニューロンを幾何学的空間に埋め込み、各ニューロン接続の長さに比例して損失関数を増大させる。
論文 参考訳(メタデータ) (2023-05-04T17:56:42Z) - Recursive Neural Programs: Variational Learning of Image Grammars and
Part-Whole Hierarchies [1.5990720051907859]
本稿では,部分階層学習問題に対処するため,再帰的ニューラルプログラム(RNP)を導入する。
RNPは、部分階層学習問題に対処する最初の神経生成モデルである。
以上の結果から,RNPはオブジェクトやシーンを直感的で説明可能な構成方法であることがわかった。
論文 参考訳(メタデータ) (2022-06-16T22:02:06Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。
良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文 参考訳(メタデータ) (2020-06-18T15:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。