論文の概要: Learning and generalization of compositional representations of visual
scenes
- arxiv url: http://arxiv.org/abs/2303.13691v1
- Date: Thu, 23 Mar 2023 22:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:33:02.082279
- Title: Learning and generalization of compositional representations of visual
scenes
- Title(参考訳): 視覚シーンの構成表現の学習と一般化
- Authors: E. Paxon Frady, Spencer Kent, Quinn Tran, Pentti Kanerva, Bruno A.
Olshausen, Friedrich T. Sommer
- Abstract要約: オブジェクト属性の分散表現とベクトルシンボルアーキテクチャにおけるベクトル演算を用いてシーンの完全な構成記述を作成する。
シーン構成を制御するために、複数の、翻訳された、色付きMNIST桁からなる人工画像を使用する。
ディープネットワークの出力はVSA共振器ネットワークによって解釈され、オブジェクトの同一性やその他のオブジェクトの特性を抽出する。
- 参考スコア(独自算出の注目度): 2.960473840509733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex visual scenes that are composed of multiple objects, each with
attributes, such as object name, location, pose, color, etc., are challenging
to describe in order to train neural networks. Usually,deep learning networks
are trained supervised by categorical scene descriptions. The common
categorical description of a scene contains the names of individual objects but
lacks information about other attributes. Here, we use distributed
representations of object attributes and vector operations in a vector symbolic
architecture to create a full compositional description of a scene in a
high-dimensional vector. To control the scene composition, we use artificial
images composed of multiple, translated and colored MNIST digits. In contrast
to learning category labels, here we train deep neural networks to output the
full compositional vector description of an input image. The output of the deep
network can then be interpreted by a VSA resonator network, to extract object
identity or other properties of indiviual objects. We evaluate the performance
and generalization properties of the system on randomly generated scenes.
Specifically, we show that the network is able to learn the task and generalize
to unseen seen digit shapes and scene configurations. Further, the
generalisation ability of the trained model is limited. For example, with a gap
in the training data, like an object not shown in a particular image location
during training, the learning does not automatically fill this gap.
- Abstract(参考訳): 複数のオブジェクトで構成される複雑な視覚シーンは、それぞれがオブジェクト名、場所、ポーズ、色などの属性を持ち、ニューラルネットワークをトレーニングするために記述するのが難しい。
通常、深層学習ネットワークは分類的なシーン記述によって指導される。
シーンの一般的な分類学的記述には個々のオブジェクトの名前が含まれているが、他の属性に関する情報がない。
本稿では,オブジェクト属性の分散表現とベクトルシンボルアーキテクチャにおけるベクトル演算を用いて,高次元ベクトルにおけるシーンの完全な構成記述を作成する。
シーン構成を制御するために,複数の翻訳された色のmnist桁からなる人工画像を使用する。
学習カテゴリラベルとは対照的に、入力画像の完全な合成ベクトル記述を出力するために、ディープニューラルネットワークを訓練する。
ディープネットワークの出力はVSA共振器ネットワークによって解釈され、オブジェクトの同一性やその他のオブジェクトの特性を抽出する。
ランダムに生成されたシーンにおけるシステムの性能と一般化特性を評価する。
具体的には,ネットワークがタスクを学習し,目に見えない数字の形やシーン構成を一般化できることを示す。
また、訓練モデルの一般化能力は限定される。
例えば、トレーニング中に特定の画像ロケーションに表示されないオブジェクトのように、トレーニングデータのギャップがある場合、学習は自動的にこのギャップを埋めない。
関連論文リスト
- How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models [2.048226951354646]
そのような抽象表現の極端な形は記号である。
この研究は、視覚エンコーダにおけるそのような構造化された表現の状態を推定する。
マルチオブジェクトシーンにおける基本的な下流タスクにおいて、これらのモデルの障害モードを引き起こすネットワークダイナミクスを示す。
論文 参考訳(メタデータ) (2024-06-13T12:54:20Z) - Semiotics Networks Representing Perceptual Inference [0.0]
本稿では,物体の知覚を追跡・シミュレートする計算モデルを提案する。
我々のモデルは人間に限らず、「内部」表現から「外部」表現への処理を含むループを含むシステムに適用することができる。
論文 参考訳(メタデータ) (2023-10-08T16:05:17Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。