論文の概要: Learning to reason over visual objects
- arxiv url: http://arxiv.org/abs/2303.02260v1
- Date: Fri, 3 Mar 2023 23:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:41:26.119314
- Title: Learning to reason over visual objects
- Title(参考訳): 視覚オブジェクトを推論する学習
- Authors: Shanka Subhra Mondal, Taylor Webb, Jonathan D. Cohen
- Abstract要約: 対象物の観点から視覚シーンを処理するための汎用メカニズムが,抽象的な視覚的推論を促進するのにどの程度役立つかを検討する。
我々は、オブジェクト中心処理の帰納バイアスが抽象的な視覚的推論の鍵となることを発見した。
- 参考スコア(独自算出の注目度): 6.571652514587829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core component of human intelligence is the ability to identify abstract
patterns inherent in complex, high-dimensional perceptual data, as exemplified
by visual reasoning tasks such as Raven's Progressive Matrices (RPM). Motivated
by the goal of designing AI systems with this capacity, recent work has focused
on evaluating whether neural networks can learn to solve RPM-like problems.
Previous work has generally found that strong performance on these problems
requires the incorporation of inductive biases that are specific to the RPM
problem format, raising the question of whether such models might be more
broadly useful. Here, we investigated the extent to which a general-purpose
mechanism for processing visual scenes in terms of objects might help promote
abstract visual reasoning. We found that a simple model, consisting only of an
object-centric encoder and a transformer reasoning module, achieved
state-of-the-art results on both of two challenging RPM-like benchmarks (PGM
and I-RAVEN), as well as a novel benchmark with greater visual complexity
(CLEVR-Matrices). These results suggest that an inductive bias for
object-centric processing may be a key component of abstract visual reasoning,
obviating the need for problem-specific inductive biases.
- Abstract(参考訳): 人間の知性の中核的な構成要素は、Raven's Progressive Matrices (RPM)のような視覚的推論タスクによって実証された、複雑な高次元知覚データに固有の抽象パターンを識別する能力である。
この能力でAIシステムを設計するという目標を掲げた最近の研究は、ニューラルネットワークがRPMのような問題を解決することができるかどうかを評価することに重点を置いている。
従来の研究では、これらの問題に対する強い性能は、RPM問題形式に特有の帰納的バイアスを組み込むことを必要としており、そのようなモデルがより広範に有用かどうかという疑問が提起されていた。
本研究では,視覚シーンの汎用的処理機構が,抽象的視覚推論の促進にどの程度役立つかを検討した。
対象中心エンコーダとトランスフォーマー推論モジュールのみからなる単純なモデルは,rpmライクな2つのベンチマーク(pgmとi-raven)と,視覚複雑性(clevr-matrices)の高い新しいベンチマーク(clevr-matrices)の両方において最先端の結果を得た。
これらの結果は、オブジェクト中心の処理に対する帰納的バイアスは抽象的視覚的推論の重要な要素であり、問題固有の帰納的バイアスの必要性を暗示している。
関連論文リスト
- Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.7955614278088239]
我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。
論文 参考訳(メタデータ) (2024-03-05T18:08:29Z) - Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection [52.107043437362556]
Raven's Progressive Matrix (RPM) は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く使われている。
RPMテストの参加者は、属性変更ルールを推論し、組み合わせることで、強力な推論能力を示すことができる。
本稿では,ルール AbstractIon と Selection を用いて,回答生成問題に対する潜時変数モデルを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:28:44Z) - Learning Abstract Visual Reasoning via Task Decomposition: A Case Study
in Raven Progressive Matrices [0.24475591916185496]
Raven Progressive Matrices(source)では、タスクは、与えられたコンテキストで利用可能な答えの1つを選択することである。
本研究では,変圧器の青写真に基づくディープラーニングアーキテクチャを提案する。
この方法で得られた多次元の予測は、その答えを選択するために直接近似される。
論文 参考訳(メタデータ) (2023-08-12T11:02:21Z) - Systematic Visual Reasoning through Object-Centric Relational
Abstraction [5.914610036560008]
対象と抽象的関係の明示的な表現を抽出するモデルであるOCRAを紹介する。
複雑な視覚ディスプレイを含むタスクにおいて、強力な体系的な一般化を実現する。
論文 参考訳(メタデータ) (2023-06-04T22:47:17Z) - Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - One-shot Visual Reasoning on RPMs with an Application to Video Frame
Prediction [1.0932251830449902]
Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。
本稿では,現実の視覚認識とそれに続く論理的推論タスクの課題に対処するために,ワンショットの人間理解可能なReaSoner(Os-HURS)を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:51:38Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。