論文の概要: What's "up" with vision-language models? Investigating their struggle
with spatial reasoning
- arxiv url: http://arxiv.org/abs/2310.19785v1
- Date: Mon, 30 Oct 2023 17:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:39:33.183482
- Title: What's "up" with vision-language models? Investigating their struggle
with spatial reasoning
- Title(参考訳): ビジョン言語モデルで"アップ"とは何か?
空間的推論と闘いの考察
- Authors: Amita Kamath, Jack Hessel, Kai-Wei Chang
- Abstract要約: 3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
- 参考スコア(独自算出の注目度): 76.2406963762722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language (VL) models are powerful, but can they reliably
distinguish "right" from "left"? We curate three new corpora to quantify model
comprehension of such basic spatial relations. These tests isolate spatial
reasoning more precisely than existing datasets like VQAv2, e.g., our What'sUp
benchmark contains sets of photographs varying only the spatial relations of
objects, keeping their identity fixed (see Figure 1: models must comprehend not
only the usual case of a dog under a table, but also, the same dog on top of
the same table). We evaluate 18 VL models, finding that all perform poorly,
e.g., BLIP finetuned on VQAv2, which nears human parity on VQAv2, achieves 56%
accuracy on our benchmarks vs. humans at 99%. We conclude by studying causes of
this surprising behavior, finding: 1) that popular vision-language pretraining
corpora like LAION-2B contain little reliable data for learning spatial
relationships; and 2) that basic modeling interventions like up-weighting
preposition-containing instances or fine-tuning on our corpora are not
sufficient to address the challenges our benchmarks pose. We are hopeful that
these corpora will facilitate further research, and we release our data and
code at https://github.com/amitakamath/whatsup_vlms.
- Abstract(参考訳): 最近の視覚言語(VL)モデルは強力だが、「右」と「左」を確実に区別できるだろうか?
このような空間関係のモデル理解を定量化するために、3つの新しいコーパスをキュレートする。
これらのテストは、VQAv2のような既存のデータセットよりも正確に空間的推論を分離します。例えば、私たちのWhat'sUpベンチマークには、オブジェクトの空間的関係だけを変化させ、そのアイデンティティを固定し続ける一連の写真が含まれています(図1:モデルは、テーブルの下の犬の通常のケースだけでなく、同じテーブルの上にある同じ犬も理解する必要があります)。
例えば、VQAv2の人間のパリティに近いVQAv2で微調整されたBLIPは、我々のベンチマークで99%の精度で56%の精度を実現している。
私たちはこの驚くべき行動の原因を研究することで結論付けます。
1) LAION-2Bのような一般的な視覚言語事前学習コーパスは、空間関係を学習するための信頼性が低い。
2) 事前設定を含むアップウェイトやコーパスの微調整のような基本的なモデリング介入は、ベンチマークがもたらす課題に対処するには不十分である。
これらのコーパスがさらなる研究を促進することを期待しており、データとコードをhttps://github.com/amitakamath/whatsup_vlms.comで公開しています。
関連論文リスト
- Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。
我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。
驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T09:30:02Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - StepGame: A New Benchmark for Robust Multi-Hop Spatial Reasoning in
Texts [12.254118455438535]
本稿では,テキストにおけるマルチホップ空間推論のためのSteepGameと呼ばれる質問応答データセットを提案する。
また,空間推論タスクに特化したメモリ拡張ニューラルネットワーク(TP-MANN)を提案する。
論文 参考訳(メタデータ) (2022-04-18T12:46:46Z) - Partial success in closing the gap between human and machine vision [30.78663978510427]
数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
我々は、広範囲なアウト・オブ・ディストリビューション(OOD)データセット上で、人間のオブザーバをテストした。
論文 参考訳(メタデータ) (2021-06-14T13:23:35Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult [22.04829832439774]
ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
論文 参考訳(メタデータ) (2021-04-05T14:56:09Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文 参考訳(メタデータ) (2020-12-03T01:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。