論文の概要: Visual Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2205.00363v3
- Date: Wed, 22 Mar 2023 15:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:35:40.642742
- Title: Visual Spatial Reasoning
- Title(参考訳): 視覚空間推論
- Authors: Fangyu Liu, Guy Emerson, Nigel Collier
- Abstract要約: 66種類の空間的関係を持つ10k以上の自然なテキストイメージ対を含むデータセットを英語で提示する。
このデータセットは,参照フレームの変動など,難易度の高い言語現象を含むことを示す。
人間の天井は95%以上であり、最先端モデルは70%程度しか達成できない。
- 参考スコア(独自算出の注目度): 35.5155400193075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial relations are a basic part of human cognition. However, they are
expressed in natural language in a variety of ways, and previous work has
suggested that current vision-and-language models (VLMs) struggle to capture
relational information. In this paper, we present Visual Spatial Reasoning
(VSR), a dataset containing more than 10k natural text-image pairs with 66
types of spatial relations in English (such as: under, in front of, and
facing). While using a seemingly simple annotation format, we show how the
dataset includes challenging linguistic phenomena, such as varying reference
frames. We demonstrate a large gap between human and model performance: the
human ceiling is above 95%, while state-of-the-art models only achieve around
70%. We observe that VLMs' by-relation performances have little correlation
with the number of training examples and the tested models are in general
incapable of recognising relations concerning the orientations of objects.
- Abstract(参考訳): 空間的関係は人間の認知の基本部分である。
しかし、それらは様々な方法で自然言語で表現されており、以前の研究は、現在の視覚・言語モデル(VLM)が関係情報を捉えるのに苦労していることを示唆している。
本稿では,10万以上の自然テキスト画像対と66種類の空間関係(例えば,下,前,前,前)を含むデータセットである visual spatial reasoning (vsr) を提案する。
一見単純なアノテーション形式を用いて,データセットが参照フレームの変化など,困難な言語現象を含むことを示す。
人間の天井は95%を超え、最先端のモデルは70%しか達成していない。
我々は,VLMの逆相関性能がトレーニング例の数とはほとんど相関がなく,テストモデルでは対象の向きに関する関係を認識できないのが一般的である。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [4.676784872259775]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。