論文の概要: AVoE: A Synthetic 3D Dataset on Understanding Violation of Expectation
for Artificial Cognition
- arxiv url: http://arxiv.org/abs/2110.05836v1
- Date: Tue, 12 Oct 2021 08:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 12:35:33.881477
- Title: AVoE: A Synthetic 3D Dataset on Understanding Violation of Expectation
for Artificial Cognition
- Title(参考訳): AVoE:人工認知への期待の振動を理解するための合成3Dデータセット
- Authors: Arijit Dasgupta, Jiafei Duan, Marcelo H. Ang Jr, Cheston Tan
- Abstract要約: VoE(Violation-of-Expectation)は、期待されたシーンと驚くべきシーンを区別するモデルの能力を評価するために用いられる。
物理推論における既存のVoEベースの3Dデータセットは、視覚データのみを提供する。
AVoE - 複数の新しいサブカテゴリから刺激を提示する合成3D VoEベースのデータセット。
- 参考スコア(独自算出の注目度): 2.561649173827544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in cognitive reasoning and computer vision has engendered an
increasing popularity for the Violation-of-Expectation (VoE) paradigm in
synthetic datasets. Inspired by work in infant psychology, researchers have
started evaluating a model's ability to discriminate between expected and
surprising scenes as a sign of its reasoning ability. Existing VoE-based 3D
datasets in physical reasoning only provide vision data. However, current
cognitive models of physical reasoning by psychologists reveal infants create
high-level abstract representations of objects and interactions. Capitalizing
on this knowledge, we propose AVoE: a synthetic 3D VoE-based dataset that
presents stimuli from multiple novel sub-categories for five event categories
of physical reasoning. Compared to existing work, AVoE is armed with
ground-truth labels of abstract features and rules augmented to vision data,
paving the way for high-level symbolic predictions in physical reasoning tasks.
- Abstract(参考訳): 認知的推論とコンピュータビジョンの最近の研究は、合成データセットにおけるVoE(Violation-of-Expectation)パラダイムの人気を高めている。
幼児心理学の研究に触発されて、研究者はモデルが予想された場面と驚きの場面を区別できる能力を、その推論能力の兆候として評価し始めた。
物理推論における既存のVoEベースの3Dデータセットは、視覚データのみを提供する。
しかし、現在の心理学者による身体的推論の認知モデルでは、幼児は物体と相互作用の高度な抽象的な表現を作り出す。
AVoEは、物理推論の5つの事象カテゴリに対して、複数の新しいサブカテゴリからの刺激を提示する合成3D VoEベースのデータセットである。
既存の仕事と比較すると、avoeはビジョンデータに付加された抽象的特徴と規則の接地的ラベルで武装しており、物理的な推論タスクにおける高いレベルの象徴的予測への道を開く。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Learning 3D object-centric representation through prediction [12.008668555280668]
本研究では,1)離散画像からオブジェクトを抽出し,2)3次元位置を推定し,3)深度を知覚する新しいネットワークアーキテクチャを開発する。
中心となる考え方は、物体を脳が将来のシーンを効率的に予測するために使用する視覚入力の潜在原因として扱うことである。
論文 参考訳(メタデータ) (2024-03-06T14:19:11Z) - Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events [75.94926117990435]
本研究では,AIエージェントによる直感的な物理の把握を評価するベンチマークデータセットであるX-VoEを紹介する。
X-VoEは直感的な物理モデルの説明能力を高めるためのより高いバーを確立する。
本稿では、物理力学を捉え、隠蔽対象状態を推定する説明に基づく学習システムを提案する。
論文 参考訳(メタデータ) (2023-08-21T03:28:23Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Objaverse: A Universe of Annotated 3D Objects [53.2537614157313]
800K以上の(そして成長する)3Dモデルと記述タグ,キャプション,アニメーションを備えたオブジェクトの大規模なデータセットであるAverse 1.0を提示する。
多様な3Dモデルのトレーニング、LVISベンチマークでのテールカテゴリセグメンテーションの改善、エンボディードビジョンモデルのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、そしてビジョンモデルのロバストネス分析のための新しいベンチマークを作成する。
論文 参考訳(メタデータ) (2022-12-15T18:56:53Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - A Benchmark for Modeling Violation-of-Expectation in Physical Reasoning
Across Event Categories [4.4920673251997885]
VoE(Violation-of-Expectation)は、期待されたシーンのみの知識で、期待されたシーンまたは驚きのシーンをラベル付けするために用いられる。
物理推論における既存のVoEベースの3Dデータセットは、ほとんど真実や帰納バイアスのない視覚データを提供する。
我々は、因果関係のある特徴と規則の基調ラベルを組み込んだ、新しい大規模合成3D VoEデータセットをキュレートすることで、身体的推論を研究するためのベンチマークを構築した。
論文 参考訳(メタデータ) (2021-11-16T22:59:25Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding [33.68455617113953]
本稿では,23のセマンティックオブジェクトカテゴリから23kの形状のベンチマークである3D AffordanceNetデータセットについて述べる。
3つの最先端のポイントクラウドディープラーニングネットワークがすべてのタスクで評価されます。
論文 参考訳(メタデータ) (2021-03-30T14:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。