論文の概要: Visual Question Answering From Another Perspective: CLEVR Mental
Rotation Tests
- arxiv url: http://arxiv.org/abs/2212.01639v1
- Date: Sat, 3 Dec 2022 16:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:20:31.493436
- Title: Visual Question Answering From Another Perspective: CLEVR Mental
Rotation Tests
- Title(参考訳): 別の視点から見る視覚的質問:CLEVRのメンタルローテーションテスト
- Authors: Christopher Beckham, Martin Weiss, Florian Golemo, Sina Honari, Derek
Nowrouzezahrai, Christopher Pal
- Abstract要約: 私たちは、CLEVRメンタルローテーションテスト(CLEVR-MRT)と呼ばれるCLEVRデータセットの新バージョンを作成します。
標準的な手法を検証し、それらをいかに短くするかを示し、シーンの体積表現を推測する新しいニューラルネットワークアーキテクチャを探索する。
これらのボリュームは、カメラ条件の変換を通じて操作することで、質問に答えることができる。
- 参考スコア(独自算出の注目度): 19.661903600917338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different types of mental rotation tests have been used extensively in
psychology to understand human visual reasoning and perception. Understanding
what an object or visual scene would look like from another viewpoint is a
challenging problem that is made even harder if it must be performed from a
single image. We explore a controlled setting whereby questions are posed about
the properties of a scene if that scene was observed from another viewpoint. To
do this we have created a new version of the CLEVR dataset that we call CLEVR
Mental Rotation Tests (CLEVR-MRT). Using CLEVR-MRT we examine standard methods,
show how they fall short, then explore novel neural architectures that involve
inferring volumetric representations of a scene. These volumes can be
manipulated via camera-conditioned transformations to answer the question. We
examine the efficacy of different model variants through rigorous ablations and
demonstrate the efficacy of volumetric representations.
- Abstract(参考訳): 心理学において、人間の視覚的推論と知覚を理解するために様々な種類の精神回転テストが広く用いられている。
オブジェクトや視覚的なシーンが他の視点からどう見えるかを理解することは、単一のイメージから実行しなければならない場合、さらに難しい問題になります。
そのシーンが他の視点から観察された場合、シーンの特性について質問を行う制御された設定を探索する。
そのために私たちは,CLEVRメンタルローテーションテスト(CLEVR-MRT)と呼ばれる,CLEVRデータセットの新バージョンを作成しました。
CLEVR-MRTを用いて、標準的な手法を検証し、どのように不足するかを示し、シーンのボリューム表現を推論する新しいニューラルネットワークを探索する。
これらのボリュームは、カメラコンディション変換によって、質問に答えるために操作することができる。
異なるモデルの有効性を厳密なアブレーションにより検証し,体積表現の有効性を示す。
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination [87.4797527628459]
我々はCoSIm(Comonsense Reasoning for Counterfactual Scene Imagination)と呼ばれる新しいタスク/データセットを導入する。
CoSImは、シーン変更の想像力を推論するAIシステムの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2022-07-08T15:28:23Z) - QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary
Visual Reasoning [0.4759142872591625]
本稿では,最小バイアスの診断的質問応答データセットであるQLEVRを紹介する。
本稿では,そのデータセットがどのように作成され,最先端の視覚的質問応答モデルの最初の評価結果を示す。
論文 参考訳(メタデータ) (2022-05-06T08:51:13Z) - Measuring CLEVRness: Blackbox testing of Visual Reasoning Models [16.094062131137722]
我々は,CLEVRのブラックボックスニューラルモデルについて検討する。
CLEVRモデルは人間レベルで動作可能で、エージェントによって簡単に騙されることを示す。
我々の結果は、データ駆動アプローチがこれらのデータセットにしばしば存在する多くのバイアスを活用せずに推論できるかどうかを疑った。
論文 参考訳(メタデータ) (2022-02-24T15:59:29Z) - Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。
この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。
実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文 参考訳(メタデータ) (2020-11-26T07:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。