論文の概要: Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times
and Location Reasoning
- arxiv url: http://arxiv.org/abs/2307.06166v2
- Date: Fri, 29 Dec 2023 16:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 02:10:01.804890
- Title: Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times
and Location Reasoning
- Title(参考訳): Vision-Language Modelsは良いゲストになれるか?
時間と位置推論のためのVLMの探索
- Authors: Gengyuan Zhang, Yurui Zhang, Kerui Zhang, Volker Tresp
- Abstract要約: VLM(Vision-Language Models)は、人間としての常識的な知識を推論できると期待されている。
これにより、視覚的な手がかりに基づいて、Vision-Language Modelsは、時間と位置の推論において、人間の能力を達成し、さらに上回ることができるのだろうか、と疑問に思う。
本稿では,2段階の認識空間と推論空間探索タスクを提案する。
- 参考スコア(独自算出の注目度): 23.33600235294496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are expected to be capable of reasoning with
commonsense knowledge as human beings. One example is that humans can reason
where and when an image is taken based on their knowledge. This makes us wonder
if, based on visual cues, Vision-Language Models that are pre-trained with
large-scale image-text resources can achieve and even outperform human's
capability in reasoning times and location. To address this question, we
propose a two-stage \recognition\space and \reasoning\space probing task,
applied to discriminative and generative VLMs to uncover whether VLMs can
recognize times and location-relevant features and further reason about it. To
facilitate the investigation, we introduce WikiTiLo, a well-curated image
dataset compromising images with rich socio-cultural cues. In the extensive
experimental studies, we find that although VLMs can effectively retain
relevant features in visual encoders, they still fail to make perfect
reasoning. We will release our dataset and codes to facilitate future studies.
- Abstract(参考訳): 視覚言語モデル(vlms)は、常識的な知識を人間として推論できると期待されている。
一つの例は、人間が知識に基づいて画像がどこでいつ撮影されるのかを判断できるということである。
これは、視覚的な手がかりに基づいて、大規模な画像テキストリソースで事前訓練された視覚言語モデルが、推論時間と位置において人間の能力を上回ることができるかどうかを疑問視させる。
そこで本研究では、VLMが時間や位置関連の特徴を認識できるかどうかを識別・生成するVLMに応用した2段階の認識空間探索タスクを提案する。
この調査を容易にするために,リッチな社会文化的な手がかりで画像を合成する画像データセットWikiTiLoを紹介した。
広範にわたる実験的研究において、VLMは視覚エンコーダの関連性を効果的に維持できるが、完全な推論ができないことが判明した。
将来の研究を促進するために、データセットとコードをリリースします。
関連論文リスト
- VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。
提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。
また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-23T17:59:31Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Enhance Reasoning Ability of Visual-Language Models via Large Language
Models [7.283533791778359]
本稿では,大規模言語モデルの推論能力をゼロショットシナリオで視覚言語モデルに転送するTReEという手法を提案する。
TReEは観察、思考、再考の3段階を含む。
論文 参考訳(メタデータ) (2023-05-22T17:33:44Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。