Fugu-MT 論文翻訳(概要): Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times and Location Reasoning

論文の概要: Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times and Location Reasoning

arxiv url: http://arxiv.org/abs/2307.06166v2
Date: Fri, 29 Dec 2023 16:08:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 02:10:01.804890
Title: Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times and Location Reasoning
Title（参考訳）: Vision-Language Modelsは良いゲストになれるか? 時間と位置推論のためのVLMの探索
Authors: Gengyuan Zhang, Yurui Zhang, Kerui Zhang, Volker Tresp
Abstract要約: VLM(Vision-Language Models)は、人間としての常識的な知識を推論できると期待されている。これにより、視覚的な手がかりに基づいて、Vision-Language Modelsは、時間と位置の推論において、人間の能力を達成し、さらに上回ることができるのだろうか、と疑問に思う。本稿では,2段階の認識空間と推論空間探索タスクを提案する。
参考スコア（独自算出の注目度）: 23.33600235294496
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) are expected to be capable of reasoning with commonsense knowledge as human beings. One example is that humans can reason where and when an image is taken based on their knowledge. This makes us wonder if, based on visual cues, Vision-Language Models that are pre-trained with large-scale image-text resources can achieve and even outperform human's capability in reasoning times and location. To address this question, we propose a two-stage \recognition\space and \reasoning\space probing task, applied to discriminative and generative VLMs to uncover whether VLMs can recognize times and location-relevant features and further reason about it. To facilitate the investigation, we introduce WikiTiLo, a well-curated image dataset compromising images with rich socio-cultural cues. In the extensive experimental studies, we find that although VLMs can effectively retain relevant features in visual encoders, they still fail to make perfect reasoning. We will release our dataset and codes to facilitate future studies.
Abstract（参考訳）: 視覚言語モデル(vlms)は、常識的な知識を人間として推論できると期待されている。一つの例は、人間が知識に基づいて画像がどこでいつ撮影されるのかを判断できるということである。これは、視覚的な手がかりに基づいて、大規模な画像テキストリソースで事前訓練された視覚言語モデルが、推論時間と位置において人間の能力を上回ることができるかどうかを疑問視させる。そこで本研究では、VLMが時間や位置関連の特徴を認識できるかどうかを識別・生成するVLMに応用した2段階の認識空間探索タスクを提案する。この調査を容易にするために,リッチな社会文化的な手がかりで画像を合成する画像データセットWikiTiLoを紹介した。広範にわたる実験的研究において、VLMは視覚エンコーダの関連性を効果的に維持できるが、完全な推論ができないことが判明した。将来の研究を促進するために、データセットとコードをリリースします。

関連論文リスト

Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文参考訳（メタデータ） (2025-04-22T17:38:01Z)
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining [86.76706820098867]
本稿では,VLM事前学習のための基礎知識を充実させた高品質な教科書コーパスについて紹介する。 2.5年以上の授業ビデオを集め、クラス時間は22,000時間である。ビデオ中心の教科書は、それと比較すると、より一貫性のあるコンテキスト、より豊かな知識、より優れた画像テキストアライメントを提供する。
論文参考訳（メタデータ） (2025-01-01T21:29:37Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
ReMI: A Dataset for Reasoning with Multiple Images [41.954830849939526]
ReMIは、大規模言語モデルが複数の画像で推論できる能力を評価するために設計されたデータセットである。このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。我々は,最先端のLDMのベンチマークを行い,その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。
論文参考訳（メタデータ） (2024-06-13T14:37:04Z)
An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文参考訳（メタデータ） (2024-05-27T15:01:23Z)
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。 VoTはLLMの空間的推論能力を著しく向上させる。
論文参考訳（メタデータ） (2024-04-04T17:45:08Z)
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文参考訳（メタデータ） (2024-03-23T23:06:32Z)
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文参考訳（メタデータ） (2023-11-06T18:59:44Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)
VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。視覚的」身体的知識を習得する能力を評価する。以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文参考訳（メタデータ） (2022-09-15T02:06:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。