論文の概要: CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially
Observable Environments
- arxiv url: http://arxiv.org/abs/2403.03203v1
- Date: Tue, 5 Mar 2024 18:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:41:16.645191
- Title: CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially
Observable Environments
- Title(参考訳): CLEVR-POC:部分観測可能な環境における推論集約型視覚質問応答
- Authors: Savitha Sam Abraham and Marjan Alirezaie and Luc De Raedt
- Abstract要約: 我々は、推論集約型視覚質問応答(VQA)のためのCLEVR-POCと呼ばれる新しいベンチマークに貢献する。
CLEVR-POCでは、ある部分的なシーンに隠されたオブジェクトに関する質問に対して、論理的制約の形での知識を活用する必要がある。
GPT-4のようなLLMを視覚知覚ネットワークと論理的論理的論理的推論と統合したニューロシンボリックモデルが,CLEVR-POCにおいて例外的な性能を示すことを示す。
- 参考スコア(独自算出の注目度): 11.239249889697115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of learning and reasoning is high on the research agenda in
AI. Nevertheless, there is only a little attention to use existing background
knowledge for reasoning about partially observed scenes to answer questions
about the scene. Yet, we as humans use such knowledge frequently to infer
plausible answers to visual questions (by eliminating all inconsistent ones).
Such knowledge often comes in the form of constraints about objects and it
tends to be highly domain or environment-specific. We contribute a novel
benchmark called CLEVR-POC for reasoning-intensive visual question answering
(VQA) in partially observable environments under constraints. In CLEVR-POC,
knowledge in the form of logical constraints needs to be leveraged to generate
plausible answers to questions about a hidden object in a given partial scene.
For instance, if one has the knowledge that all cups are colored either red,
green or blue and that there is only one green cup, it becomes possible to
deduce the color of an occluded cup as either red or blue, provided that all
other cups, including the green one, are observed. Through experiments, we
observe that the low performance of pre-trained vision language models like
CLIP (~ 22%) and a large language model (LLM) like GPT-4 (~ 46%) on CLEVR-POC
ascertains the necessity for frameworks that can handle reasoning-intensive
tasks where environment-specific background knowledge is available and crucial.
Furthermore, our demonstration illustrates that a neuro-symbolic model, which
integrates an LLM like GPT-4 with a visual perception network and a formal
logical reasoner, exhibits exceptional performance on CLEVR-POC.
- Abstract(参考訳): 学習と推論の統合は、AIの研究課題に大きく依存している。
但し、部分的に観察されたシーンについて推論するために、既存の背景知識を使うことにはほとんど注意が払われていない。
しかし、人間はそのような知識を頻繁に使い、視覚的な質問に対する妥当な答えを推測している(一貫性のない質問をすべて排除することによって)。
このような知識は、しばしばオブジェクトに関する制約の形で得られ、ドメインや環境に特有のものになりがちである。
我々は,制約下で部分的に観察可能な環境下での推論集約型視覚質問応答(VQA)に対して,CLEVR-POCと呼ばれる新しいベンチマークを提出する。
CLEVR-POCでは、ある部分的なシーンに隠されたオブジェクトに関する質問に対して、論理的制約の形での知識を活用する必要がある。
例えば、すべてのカップが赤、緑、青のいずれかで、緑のカップが1つしかないという知識があれば、緑色のカップを含む他のすべてのカップを観察すれば、オクルードされたカップの色を赤または青として推測することができる。
実験により,CLIP (~22%) や CLEVR-POC 上の GPT-4 (~46%) のような大規模言語モデル (LLM) のような事前学習済みの視覚言語モデルの低性能が,環境固有の背景知識が利用可能かつ不可欠であるような推論集約的なタスクを処理可能なフレームワークの必要性を確認できた。
さらに,gpt-4 のような llm を視覚知覚ネットワークや論理推論器と統合したニューロシンボリックモデルがclevr-poc において極めて優れた性能を示すことを示す。
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - Is CLIP the main roadblock for fine-grained open-world perception? [7.190567053576658]
最近の研究では、オープン語彙設定における微粒化認識能力の制限が強調されている。
細粒度理解の欠如は,CLIP潜伏空間における物体特性の分離性の欠如が原因であることを示す。
実験の結果,単純なCLIP遅延空間再射は,微細な概念の分離に役立つことがわかった。
論文 参考訳(メタデータ) (2024-04-04T15:47:30Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文 参考訳(メタデータ) (2022-07-26T10:01:02Z) - Revealing Occlusions with 4D Neural Fields [19.71277637485384]
コンピュータビジョンシステムが動的に動作するためには、オブジェクトの永続性を表現し、推論できる必要がある。
本研究では,モノクロ時間から4次元視覚表現を推定する学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-22T20:14:42Z) - Attention Mechanism based Cognition-level Scene Understanding [23.592893555879538]
Visual Commonsense Reasoning (VCR)モデルは、現実の世界からの推論能力を必要とする、対応する理論的根拠による回答を予測することができる。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
本稿では,視覚的テクスト情報を効率的に融合し,セマンティック情報を並列に符号化し,認知レベルの推論のためのリッチな情報を取得するための並列注意型認知VCRネットワークPAVCRを提案する。
論文 参考訳(メタデータ) (2022-04-17T15:04:44Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。