論文の概要: Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models
- arxiv url: http://arxiv.org/abs/2308.09778v3
- Date: Wed, 6 Mar 2024 00:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 18:15:30.812795
- Title: Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models
- Title(参考訳): マルチモーダル視覚言語モデルにおける接地空間推論に向けて
- Authors: Navid Rajabi, Jana Kosecka
- Abstract要約: 画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
- 参考スコア(独自算出の注目度): 3.86170450233149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-and-language models (VLMs) trained to match images with text on
large-scale datasets of image-text pairs have shown impressive generalization
ability on several vision and language tasks. Several recent works, however,
showed that these models lack fine-grained understanding, such as the ability
to count and recognize verbs, attributes, or relationships. The focus of this
work is to study the understanding of spatial relations. This has been tackled
previously using image-text matching (e.g., Visual Spatial Reasoning benchmark)
or visual question answering (e.g., GQA or VQAv2), both showing poor
performance and a large gap compared to human performance. In this work, we
show qualitatively (using explainability tools) and quantitatively (using
object detectors) that the poor object localization "grounding" ability of the
models is a contributing factor to the poor image-text matching performance. We
propose an alternative fine-grained, compositional approach for recognizing and
ranking spatial clauses that combines the evidence from grounding noun phrases
corresponding to objects and their locations to compute the final rank of the
spatial clause. We demonstrate the approach on representative VLMs (such as
LXMERT, GPV, and MDETR) and compare and highlight their abilities to reason
about spatial relationships.
- Abstract(参考訳): 大規模ビジョン・アンド・ランゲージモデル(VLM)は、画像・テキストペアの大規模データセット上で、画像とテキストをマッチングするように訓練された。
しかし、最近のいくつかの研究は、これらのモデルが動詞、属性、関係性を数え、認識する能力など、きめ細かい理解を欠いていることを示した。
本研究の焦点は空間関係の理解を研究することである。
これは以前、画像テキストマッチング(例えば、ビジュアル空間推論のベンチマーク)や視覚的質問応答(例えば、GQAやVQAv2)を使用して取り組まれており、どちらも人間のパフォーマンスと比べてパフォーマンスが悪く大きなギャップがある。
そこで本研究では,オブジェクトの局所化能力の低下が画像テキストマッチング性能の低下に寄与する要因であることを,定性的に(説明可能性ツールを用いて)定量的に(オブジェクト検出器を用いて)示す。
本研究では,オブジェクトに対応する名詞句とその位置の接地から証拠を抽出して空間節の最終ランクを計算する,空間節を認識・ランク付けするための代替的きめ細かな構成的アプローチを提案する。
我々は,代表的VLM(LXMERT,GPV,MDETR)に対するアプローチを実証し,空間的関係を推論する能力を比較,強調する。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。