論文の概要: Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative
Cognition Approach
- arxiv url: http://arxiv.org/abs/2402.12675v1
- Date: Tue, 20 Feb 2024 02:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:21:49.321807
- Title: Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative
Cognition Approach
- Title(参考訳): 物体中心深部ニューラルネットワークにおける視覚的推論 : 比較認知アプローチ
- Authors: Guillermo Puebla and Jeffrey S. Bowers
- Abstract要約: 視覚的推論の達成は、人工知能の長期的な目標である。
近年,視覚的推論を実現する手段として,オブジェクト指向表現学習が提唱されている。
オブジェクト中心モデルでは、多くのアウト・オブ・ディストリビューションの場合であっても、シーン内の異なるオブジェクトを分離できることを示す。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving visual reasoning is a long-term goal of artificial intelligence. In
the last decade, several studies have applied deep neural networks (DNNs) to
the task of learning visual relations from images, with modest results in terms
of generalization of the relations learned. However, in recent years,
object-centric representation learning has been put forward as a way to achieve
visual reasoning within the deep learning framework. Object-centric models
attempt to model input scenes as compositions of objects and relations between
them. To this end, these models use several kinds of attention mechanisms to
segregate the individual objects in a scene from the background and from other
objects. In this work we tested relation learning and generalization in several
object-centric models, as well as a ResNet-50 baseline. In contrast to previous
research, which has focused heavily in the same-different task in order to
asses relational reasoning in DNNs, we use a set of tasks -- with varying
degrees of difficulty -- derived from the comparative cognition literature. Our
results show that object-centric models are able to segregate the different
objects in a scene, even in many out-of-distribution cases. In our simpler
tasks, this improves their capacity to learn and generalize visual relations in
comparison to the ResNet-50 baseline. However, object-centric models still
struggle in our more difficult tasks and conditions. We conclude that abstract
visual reasoning remains an open challenge for DNNs, including object-centric
models.
- Abstract(参考訳): 視覚的推論の達成は、人工知能の長期的な目標である。
過去10年間で、画像から視覚的関係を学習するタスクにディープニューラルネットワーク(DNN)を適用した研究がいくつかあり、学習した関係の一般化という観点からは控えめな結果が出ている。
しかし近年,ディープラーニングフレームワーク内で視覚的推論を実現する手段として,オブジェクト指向表現学習が推進されている。
オブジェクト中心モデルは、入力シーンをオブジェクトの合成とそれらの関係としてモデル化しようとする。
この目的のために、これらのモデルは、背景と他の物体からシーン内の個々のオブジェクトを分離するために、いくつかの種類の注意機構を使用する。
本研究では、ResNet-50ベースラインと同様に、複数のオブジェクト中心モデルにおける関係学習と一般化を検証した。
DNNのリレーショナル推論を評価するために、同じ異なるタスクに重点を置いてきた従来の研究とは対照的に、我々は、比較認知文学から派生した、様々な困難度を持つ一連のタスクを使用する。
以上の結果から, 物体中心モデルでは, 分布域外においても, シーン内の異なる物体を分離できることがわかった。
我々の単純なタスクでは、ResNet-50ベースラインと比較して視覚関係を学習し、一般化する能力が向上する。
しかしながら、オブジェクト中心のモデルは、より困難なタスクや条件で依然として苦労しています。
抽象的な視覚的推論は、オブジェクト中心モデルを含むDNNにとってオープンな課題である。
関連論文リスト
- OC-NMN: Object-centric Compositional Neural Module Network for
Generative Visual Analogical Reasoning [49.12350554270196]
モジュラリティがいかにして、想像にインスパイアされた構成データ拡張フレームワークを導出できるかを示す。
本手法は, オブジェクト中心合成ニューラルネットワーク (OC-NMN) を用いて, 視覚生成推論タスクを, ドメイン固有言語を使わずに, オブジェクトに適用した一連のプリミティブに分解する。
論文 参考訳(メタデータ) (2023-10-28T20:12:58Z) - Systematic Visual Reasoning through Object-Centric Relational
Abstraction [5.914610036560008]
対象と抽象的関係の明示的な表現を抽出するモデルであるOCRAを紹介する。
複雑な視覚ディスプレイを含むタスクにおいて、強力な体系的な一般化を実現する。
論文 参考訳(メタデータ) (2023-06-04T22:47:17Z) - The role of object-centric representations, guided attention, and
external memory on generalizing visual relations [0.6091702876917281]
我々はスロットアテンション、繰り返し誘導されるアテンション、外部メモリなどのメカニズムを統合する一連のディープニューラルネットワーク(DNN)を評価する。
その結果、特定の種類の画像と同一の差分関係を一般化するモデルでは、他のモデルよりも優れている結果が得られたが、この関係を全体にわたって一般化するモデルは得られなかった。
論文 参考訳(メタデータ) (2023-04-14T12:22:52Z) - Deep Non-Monotonic Reasoning for Visual Abstract Reasoning Tasks [3.486683381782259]
本稿では,視覚的抽象的推論課題を解決するための非単調な計算手法を提案する。
このアプローチを使ってディープラーニングモデルを実装し、RavenのProgressive MatricesテストにインスパイアされたデータセットであるRAVENデータセットでそれをテストしました。
論文 参考訳(メタデータ) (2023-02-08T16:35:05Z) - Sparse Relational Reasoning with Object-Centric Representations [78.83747601814669]
対象中心表現の操作において,リレーショナルニューラルアーキテクチャによって学習されたソフトルールの構成可能性について検討する。
特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-07-15T14:57:33Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。