論文の概要: Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View
- arxiv url: http://arxiv.org/abs/2405.17201v1
- Date: Mon, 27 May 2024 14:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:03:23.942464
- Title: Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View
- Title(参考訳): ゲーム理論から見た視覚言語モデルの構成的知識の診断
- Authors: Jin Wang, Shichao Dong, Yapeng Zhu, Kelu Yao, Weidong Zhao, Chao Li, Ping Luo,
- Abstract要約: 視覚言語モデル(VLM)は、構成的推論に関して十分な知識を欠いている。
本稿では,VLMの脆弱性を構成的理解の異なる側面から評価するために,新しいゲーム理論的視点による評価手法を提案する。
- 参考スコア(独自算出の注目度): 26.52297849056656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional reasoning capabilities are usually considered as fundamental skills to characterize human perception. Recent studies show that current Vision Language Models (VLMs) surprisingly lack sufficient knowledge with respect to such capabilities. To this end, we propose to thoroughly diagnose the composition representations encoded by VLMs, systematically revealing the potential cause for this weakness. Specifically, we propose evaluation methods from a novel game-theoretic view to assess the vulnerability of VLMs on different aspects of compositional understanding, e.g., relations and attributes. Extensive experimental results demonstrate and validate several insights to understand the incapabilities of VLMs on compositional reasoning, which provide useful and reliable guidance for future studies. The deliverables will be updated at https://vlms-compositionality-gametheory.github.io/.
- Abstract(参考訳): 構成的推論能力は通常、人間の知覚を特徴づける基本的なスキルとみなされる。
近年の研究では、現在のビジョン言語モデル(VLM)には、そのような能力に関する十分な知識が欠けていることが示されている。
そこで本研究では,VLMによって符号化された合成表現を徹底的に診断し,この弱点の原因を体系的に明らかにすることを提案する。
具体的には,構成的理解,例えば関係性,属性の異なる側面から,VLMの脆弱性を評価するためのゲーム理論的な新しい視点からの評価手法を提案する。
総合的な実験結果から,VLMの合成推論能力の欠如を理解するためのいくつかの知見を実証し,検証し,今後の研究に有用で信頼性の高いガイダンスを提供する。
製品はhttps://vlms-compositionality-gametheory.github.io/で更新される。
関連論文リスト
- MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-13T05:35:09Z) - Do Vision-Language Models Really Understand Visual Language? [43.893398898373995]
ダイアグラムは、複雑な概念とその関係をイメージとして表現した視覚言語の典型例である。
近年の研究では、LVLM(Large Vision-Language Models)が図を含む複雑な推論タスクに対処できることが示唆されている。
本稿では,LVLMのダイアグラム理解能力を評価するための総合的なテストスイートを開発する。
論文 参考訳(メタデータ) (2024-09-30T19:45:11Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。
具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。
我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition [61.956088652094515]
視覚と言語モデル(VLM)は、驚くべきゼロショット認識能力を示した。
しかし、それらは視覚言語的構成性、特に言語的理解ときめ細かい画像テキストアライメントの課題に直面している。
本稿では,構成性と認識の複雑な関係について考察する。
論文 参考訳(メタデータ) (2024-06-13T17:58:39Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。
提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。
また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-23T17:59:31Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。