論文の概要: PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning
- arxiv url: http://arxiv.org/abs/2112.05136v1
- Date: Thu, 9 Dec 2021 18:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 13:44:45.378460
- Title: PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning
- Title(参考訳): PTR:パートベース概念・リレーショナル・物理推論のためのベンチマーク
- Authors: Yining Hong, Li Yi, Joshua B. Tenenbaum, Antonio Torralba, Chuang Gan
- Abstract要約: PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
- 参考スコア(独自算出の注目度): 135.2892665079159
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A critical aspect of human visual perception is the ability to parse visual
scenes into individual objects and further into object parts, forming
part-whole hierarchies. Such composite structures could induce a rich set of
semantic concepts and relations, thus playing an important role in the
interpretation and organization of visual signals as well as for the
generalization of visual perception and reasoning. However, existing visual
reasoning benchmarks mostly focus on objects rather than parts. Visual
reasoning based on the full part-whole hierarchy is much more challenging than
object-centric reasoning due to finer-grained concepts, richer geometry
relations, and more complex physics. Therefore, to better serve for part-based
conceptual, relational and physical reasoning, we introduce a new large-scale
diagnostic visual reasoning dataset named PTR. PTR contains around 70k RGBD
synthetic images with ground truth object and part level annotations regarding
semantic instance segmentation, color attributes, spatial and geometric
relationships, and certain physical properties such as stability. These images
are paired with 700k machine-generated questions covering various types of
reasoning types, making them a good testbed for visual reasoning models. We
examine several state-of-the-art visual reasoning models on this dataset and
observe that they still make many surprising mistakes in situations where
humans can easily infer the correct answer. We believe this dataset will open
up new opportunities for part-based reasoning.
- Abstract(参考訳): 人間の視覚知覚の重要な側面は、視覚シーンを個々のオブジェクトにパースし、さらにオブジェクトにパースし、部分全体階層を形成する能力である。
このような複合構造は、意味概念と関係の豊富なセットを誘導し、視覚信号の解釈と組織化、および視覚知覚と推論の一般化において重要な役割を果たす。
しかし、既存のビジュアル推論ベンチマークは主に部品ではなくオブジェクトに焦点を当てている。
全体的パーシャル階層に基づく視覚的推論は、粒度の細かい概念、よりリッチな幾何学的関係、より複雑な物理学のために、オブジェクト中心の推論よりもずっと難しい。
そこで本研究では, 概念的, 関係的, 物理的推論に役立てるために, ptrと呼ばれる新しい大規模診断用ビジュアル推論データセットを提案する。
ptrには、約70k rgbd合成画像と、意味インスタンスのセグメンテーション、色属性、空間的および幾何学的関係、安定性などの特定の物理的性質に関する部分レベルのアノテーションが含まれている。
これらの画像は、様々なタイプの推論モデルをカバーする700kのマシン生成質問と組み合わせられ、視覚的推論モデルに適したテストベッドとなっている。
このデータセット上で最先端のビジュアル推論モデルをいくつか検討し、人間が容易に正しい答えを推測できる状況において、まだ多くの驚くべき誤りを犯していることを観察する。
このデータセットは、パートベースの推論に新たな機会をもたらすと思います。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning [0.7999703756441756]
視覚関係を理解する人間の能力は、AIシステムよりもはるかに優れている。
Glimpse-based Active Perception (GAP) システムを開発した。
その結果,GAPは即時的な視覚内容を超えた視覚関係の抽出に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T11:48:11Z) - Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative
Cognition Approach [3.8073142980733]
視覚的推論の達成は、人工知能の長期的な目標である。
近年,視覚的推論を実現する手段として,オブジェクト指向表現学習が提唱されている。
オブジェクト中心モデルでは、多くのアウト・オブ・ディストリビューションの場合であっても、シーン内の異なるオブジェクトを分離できることを示す。
論文 参考訳(メタデータ) (2024-02-20T02:48:14Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos [113.2646904729092]
目に見える性質と隠れた性質の間の構成性は、物理的な世界から推論するAIモデルに固有の課題をもたらす。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,視覚知覚,物理特性学習,動的予測,記号実行を組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルニューラルシンボリックフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-02T17:59:13Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。