論文の概要: Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models
- arxiv url: http://arxiv.org/abs/2308.09778v2
- Date: Wed, 6 Dec 2023 23:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:38:26.229340
- Title: Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models
- Title(参考訳): マルチモーダル視覚言語モデルにおける接地空間推論に向けて
- Authors: Navid Rajabi, Jana Kosecka
- Abstract要約: 本研究では,視覚・言語モデルによる空間関係の理解能力について検討する。
貧弱なパフォーマンスの原因をよりよく理解するために、説明可能性ツールを使用します。
空間的節のランク付けに際し, よりきめ細かな構成的アプローチを提案する。
- 参考スコア(独自算出の注目度): 3.86170450233149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With pre-training of vision-and-language models (VLMs) on large-scale
datasets of image-text pairs, several recent works showed that these
pre-trained models lack fine-grained understanding, such as the ability to
count and recognize verbs, attributes, or relationships. The focus of this work
is to study the ability of these models to understand spatial relations.
Previously, this has been tackled using image-text matching (e.g., Visual
Spatial Reasoning benchmark) or visual question answering (e.g., GQA or VQAv2),
both showing poor performance and a large gap compared to human performance. In
this work, we use explainability tools to understand the causes of poor
performance better and present an alternative fine-grained, compositional
approach for ranking spatial clauses. We combine the evidence from grounding
noun phrases corresponding to objects and their locations to compute the final
rank of the spatial clause. We demonstrate the approach on representative VLMs
(such as LXMERT, GPV, and MDETR) and compare and highlight their abilities to
reason about spatial relationships.
- Abstract(参考訳): 画像テキストペアの大規模データセット上での視覚・言語モデル(VLM)の事前学習により、これらの事前学習されたモデルは、動詞、属性、関係性を数え、認識する能力など、詳細な理解が欠如していることが示された。
この研究の焦点は、これらのモデルが空間関係を理解する能力を研究することである。
これまでは、画像テキストマッチング(例えば、ビジュアル空間推論のベンチマーク)や視覚的質問応答(例えば、GQAやVQAv2)を使用してこの問題に取り組んできた。
本研究では,性能不良の原因をよりよく理解するために説明可能性ツールを使用し,空間的節のランク付けに代替的なきめ細かな構成アプローチを提案する。
対象物とその位置に対応する名詞句の接地から得られた証拠を組み合わせて、空間節の最終ランクを計算する。
我々は,代表的VLM(LXMERT,GPV,MDETR)に対するアプローチを実証し,空間的関係を推論する能力を比較,強調する。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。