論文の概要: Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models?
- arxiv url: http://arxiv.org/abs/2510.16924v1
- Date: Sun, 19 Oct 2025 16:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.922059
- Title: Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models?
- Title(参考訳): 視覚的接地は、大規模言語モデルにおける身体的知識の理解を促進するか?
- Authors: Zhihui Yang, Yupei Wang, Kaijie Mo, Zhe Zhao, Renfen Hu,
- Abstract要約: 視覚言語モデル(VLM)は、どちらのタスクでもテキストのみのモデルより優れているわけではない。
VLMは、他の知覚次元と比較して視覚次元が著しく悪い。
本研究は,マルチモーダル言語モデルにおけるエンボディド知識のより効果的な統合の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 5.726418224480853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in multimodal language models (LMs), it remains unclear whether visual grounding enhances their understanding of embodied knowledge compared to text-only models. To address this question, we propose a novel embodied knowledge understanding benchmark based on the perceptual theory from psychology, encompassing visual, auditory, tactile, gustatory, olfactory external senses, and interoception. The benchmark assesses the models' perceptual abilities across different sensory modalities through vector comparison and question-answering tasks with over 1,700 questions. By comparing 30 state-of-the-art LMs, we surprisingly find that vision-language models (VLMs) do not outperform text-only models in either task. Moreover, the models perform significantly worse in the visual dimension compared to other sensory dimensions. Further analysis reveals that the vector representations are easily influenced by word form and frequency, and the models struggle to answer questions involving spatial perception and reasoning. Our findings underscore the need for more effective integration of embodied knowledge in LMs to enhance their understanding of the physical world.
- Abstract(参考訳): マルチモーダル言語モデル(LM)の大幅な進歩にもかかわらず、視覚的基盤化がテキストのみのモデルと比較して、具体的知識の理解を高めるかどうかは不明だ。
そこで本研究では,視覚,聴覚,触覚,味覚,嗅覚,嗅覚,インターセプションを含む,心理学の知覚理論に基づく新しい知識理解ベンチマークを提案する。
このベンチマークは、ベクトル比較と質問回答タスクを1,700以上の質問で比較することにより、異なる知覚モダリティにわたるモデルの知覚能力を評価する。
30の最先端のLMを比較することで、視覚言語モデル(VLM)がいずれのタスクにおいてもテキストのみのモデルよりも優れていないことがわかりました。
さらに、他の知覚次元と比較して、モデルが視覚次元において著しく悪化する。
さらに分析した結果,ベクトル表現は単語の形式や頻度の影響を受けやすく,空間的知覚や推論に関わる疑問に答えることに苦慮していることが明らかとなった。
本研究は, 物理世界に対する理解を深めるために, LMにおける具体的知識のより効果的な統合の必要性を浮き彫りにした。
関連論文リスト
- Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Training A Small Emotional Vision Language Model for Visual Art Comprehension [35.273057947865176]
本稿では,視覚芸術を理解するために,小さな視覚言語モデルを開発する。
感情モデリングと入出力特徴アライメントによって、小さな感情視覚言語モデル(SEVLM)を構築する。
最先端の小型モデルを上回るだけでなく、微調整後のLLaVA 7BやGPT4(V)と競合する。
論文 参考訳(メタデータ) (2024-03-17T09:01:02Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。