論文の概要: The role of object-centric representations, guided attention, and
external memory on generalizing visual relations
- arxiv url: http://arxiv.org/abs/2304.07091v1
- Date: Fri, 14 Apr 2023 12:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 13:35:38.556046
- Title: The role of object-centric representations, guided attention, and
external memory on generalizing visual relations
- Title(参考訳): 視覚関係の一般化における対象中心表現,注意誘導,外的記憶の役割
- Authors: Guillermo Puebla and Jeffrey S. Bowers
- Abstract要約: 我々はスロットアテンション、繰り返し誘導されるアテンション、外部メモリなどのメカニズムを統合する一連のディープニューラルネットワーク(DNN)を評価する。
その結果、特定の種類の画像と同一の差分関係を一般化するモデルでは、他のモデルよりも優れている結果が得られたが、この関係を全体にわたって一般化するモデルは得られなかった。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning is a long-term goal of vision research. In the last decade,
several works have attempted to apply deep neural networks (DNNs) to the task
of learning visual relations from images, with modest results in terms of the
generalization of the relations learned. In recent years, several innovations
in DNNs have been developed in order to enable learning abstract relation from
images. In this work, we systematically evaluate a series of DNNs that
integrate mechanism such as slot attention, recurrently guided attention, and
external memory, in the simplest possible visual reasoning task: deciding
whether two objects are the same or different. We found that, although some
models performed better than others in generalizing the same-different relation
to specific types of images, no model was able to generalize this relation
across the board. We conclude that abstract visual reasoning remains largely an
unresolved challenge for DNNs.
- Abstract(参考訳): 視覚推論は視覚研究の長期的な目標である。
過去10年間で、画像から視覚的関係を学習するタスクにディープニューラルネットワーク(DNN)を適用しようとする研究がいくつかある。
近年,画像から抽象関係を学習するために,dnnの革新がいくつも開発されている。
本研究では,最も単純な視覚的推論タスクにおいて,スロットアテンション,繰り返し誘導されるアテンション,外部メモリなどの機構を統合する一連のDNNを体系的に評価する。
あるモデルは、特定の種類の画像と同一の異なる関係を一般化する上で、他のモデルよりも優れた性能を示したが、ボード全体にわたってこの関係を一般化するモデルは存在しなかった。
DNNにとって抽象的な視覚的推論は未解決の課題である。
関連論文リスト
- Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative
Cognition Approach [3.8073142980733]
視覚的推論の達成は、人工知能の長期的な目標である。
近年,視覚的推論を実現する手段として,オブジェクト指向表現学習が提唱されている。
オブジェクト中心モデルでは、多くのアウト・オブ・ディストリビューションの場合であっても、シーン内の異なるオブジェクトを分離できることを示す。
論文 参考訳(メタデータ) (2024-02-20T02:48:14Z) - OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning [49.12350554270196]
モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
論文 参考訳(メタデータ) (2023-10-28T20:12:58Z) - Systematic Visual Reasoning through Object-Centric Relational
Abstraction [5.914610036560008]
対象と抽象的関係の明示的な表現を抽出するモデルであるOCRAを紹介する。
複雑な視覚ディスプレイを含むタスクにおいて、強力な体系的な一般化を実現する。
論文 参考訳(メタデータ) (2023-06-04T22:47:17Z) - Transferability of coVariance Neural Networks and Application to
Interpretable Brain Age Prediction using Anatomical Features [119.45320143101381]
グラフ畳み込みネットワーク(GCN)は、トポロジー駆動のグラフ畳み込み演算を利用して、推論タスクのためにグラフをまたいだ情報を結合する。
我々は、共分散行列をグラフとして、共分散ニューラルネットワーク(VNN)の形でGCNを研究した。
VNNは、GCNからスケールフリーなデータ処理アーキテクチャを継承し、ここでは、共分散行列が極限オブジェクトに収束するデータセットに対して、VNNが性能の転送可能性を示すことを示す。
論文 参考訳(メタデータ) (2023-05-02T22:15:54Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - DORA: Exploring Outlier Representations in Deep Neural Networks [0.0]
我々は,Deep Neural Networks (DNN) の表現空間を解析するための,最初のデータに依存しないフレームワークであるDORAを提案する。
我々のフレームワークの中心は、表現間の類似性を評価する、提案された極活動距離測定(EA)である。
EAのメトリクスを定量的に検証し、制御されたシナリオと実世界のアプリケーションの両方でその効果を実証する。
論文 参考訳(メタデータ) (2022-06-09T14:25:14Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。