論文の概要: Visual Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2205.00363v1
- Date: Sat, 30 Apr 2022 23:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 07:34:21.147123
- Title: Visual Spatial Reasoning
- Title(参考訳): 視覚空間推論
- Authors: Fangyu Liu, Guy Emerson, Nigel Collier
- Abstract要約: 人間のラベル付きデータセットを用いた新しいベンチマークタスクである視覚空間推論(VSR)を提案する。
VSRは、自然なテキストイメージ対における65種類の空間的関係を認識する際のモデルの能力を調べる。
一見単純で単純に見えるこのタスクは、人間とモデルのパフォーマンスの間に大きなギャップがあることを示している。
- 参考スコア(独自算出の注目度): 35.5155400193075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial relations are fundamental to human cognition and are the most basic
knowledge for us to understand and communicate about our physical surroundings.
In this paper, we ask the critical question: Are current vision-and-language
models (VLMs) able to correctly understand spatial relations? To answer this
question, we propose Visual Spatial Reasoning (VSR), a novel benchmark task
with human labelled dataset for investigating VLMs' capabilities in recognising
65 types of spatial relationships (e.g., under, in front of, facing etc.) in
natural text-image pairs. Specifically, given a caption and an image, the model
needs to perform binary classification and decide if the caption accurately
describes the spatial relationships of two objects presented in the image.
While being seemingly simple and straightforward, the task shows a large gap
between human and model performance (human ceiling on the VSR task is above 95%
and models only achieve around 70%). With fine-grained categorisation and
control on both concepts and relations, our VSR benchmark enables us to perform
interesting probing analysis to pinpoint VLMs' failure cases and the reasons
behind. We observe that VLMs' by-relation performances have little correlation
with the number of training examples and the tested models are in general
incapable of recognising relations that concern orientations of objects. Also,
VLMs have poor zero-shot generalisation toward unseen concepts. The dataset and
code are released at github.com/cambridgeltl/visual-spatial-reasoning.
- Abstract(参考訳): 空間的関係は人間の認知の基本であり、身体的環境について理解し、コミュニケーションする上で最も基本的な知識である。
本稿では,現在の視覚・言語モデル(VLM)は空間関係を正確に理解できるのか?
本稿では,自然画像対において65種類の空間関係(例えば,前,前,前等)を認識するvlmsの能力を調査するための,人間ラベル付きデータセットを用いた新しいベンチマークタスクであるvisual spatial reasoning (vsr)を提案する。
具体的には、キャプションと画像が与えられた場合、モデルがバイナリ分類を行い、キャプションが画像に表示される2つのオブジェクトの空間的関係を正確に記述しているかどうかを決定する必要がある。
一見単純で単純に見えるが、このタスクは人間とモデルのパフォーマンスの大きなギャップを示している(VSRタスクの人間の天井は95%以上で、モデルは70%程度しか達成できない)。
概念と関係の両方を細かく分類し制御することで、VSRベンチマークは興味深い探索分析を行い、VLMの障害事例とその原因を特定できます。
VLMの相互関係性能はトレーニング例の数とはほとんど相関がなく,テストモデルでは一般に物体の向きに関する関係を認識することができない。
また、VLMは目に見えない概念に対するゼロショットの一般化が不十分である。
データセットとコードはgithub.com/cambridgeltl/visual-spatial-reasoningでリリースされる。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [4.676784872259775]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。