論文の概要: The Limits of Learning from Pictures and Text: Vision-Language Models and Embodied Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.26589v1
- Date: Fri, 27 Mar 2026 16:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.603006
- Title: The Limits of Learning from Pictures and Text: Vision-Language Models and Embodied Scene Understanding
- Title(参考訳): 絵やテキストからの学習の限界:視覚言語モデルと身体的場面理解
- Authors: Gillian Rosenberg, Skylar Stadhard, Bruce C. Hansen, Michelle R. Greene,
- Abstract要約: 視覚言語モデル(VLM)は、巨大なペアのテキストイメージコーパスで訓練されるが、具体的経験がない。
我々は,18VLMによる記述と,15の高レベルシーン理解タスクにおける2000人以上の観察者の記述を比較した2つの実験を報告した。
そこで我々は,VLMの出力と人間の応答の分布の類似度を計測するヒューマンキャリブレーション・コサイン・ディスタンス・メトリックを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: What information is sufficient to learn the full richness of human scene understanding? The distributional hypothesis holds that the statistical co-occurrence of language and images captures the conceptual knowledge underlying visual cognition. Vision-language models (VLMs) are trained on massive paired text-image corpora but lack embodied experience, making them an ideal test of the distributional hypothesis. We report two experiments comparing descriptions generated by 18 VLMs to those of over 2000 human observers across 15 high-level scene understanding tasks, spanning general knowledge, affordances, sensory experiences, affective responses, and future prediction. Because many tasks lack ground truth answers, we developed a Human-Calibrated Cosine Distance (HCD) metric that measures VLM output similarity to the distribution of human responses, scaled by within-human variability. In Experiment 1, VLMs approached human-level performance on general knowledge tasks, but showed a robust deficit for affordance tasks that resisted prompt engineering and did not improve with newer model releases. In Experiment 2, we tested six mechanistic hypotheses for explaining this affordance gap, finding that the deficit was structural rather than stylistic and was not resolved by providing explicit spatial information. Corpus analyses revealed that image captioning datasets contain sparse agent-addressed affordance language, consistent with Gricean accounts of why embodied knowledge may be systematically underrepresented in language. Together, these findings suggest that distributional learning from images and text is insufficient for affordance-based scene understanding, implying that some dimensions of human visual cognition may require the kind of agent-centered, three-dimensional experience that no photograph or caption can encode.
- Abstract(参考訳): 人間のシーン理解の豊かさを学習するのに十分な情報は何だろうか?
分布仮説は、言語と画像の統計的共起が視覚認知の根底にある概念的知識を捉えていると主張している。
視覚言語モデル(VLM)は、巨大なペアのテキスト画像コーパスで訓練されるが、具体的経験がないため、分布仮説の理想的なテストとなる。
我々は,18個のVLMから生成された記述を,一般知識,余裕,感覚経験,情緒的反応,将来の予測など15のシーン理解タスクにまたがる2000人以上の観察者の記述と比較した2つの実験を報告した。
多くのタスクが真理解を欠いているため、人間の応答の分布とVLM出力の類似性を測定するHuman-Calibrated Cosine Distance(HCD)メトリクスを開発した。
実験1では、VLMは一般知識タスクの人間レベルの性能に近づいたが、迅速なエンジニアリングに抵抗し、新しいモデルリリースでは改善しなかった、手頃なタスクに対する堅牢な欠点を示した。
実験2では,この余剰ギャップを説明するための6つの機械的仮説を検証し,その欠陥はスタイリスティックではなく構造的であり,空間的情報を提供することで解決できないことを示した。
コーパス分析により、画像キャプションデータセットは、なぜエンボディド・ナレッジが言語で体系的に過小評価されるのかというグリシアンの記述と一致する、スパースエージェント適応の余暇言語を含んでいることが明らかになった。
これらの結果は、画像やテキストからの分布学習は、余分なシーン理解には不十分であることが示唆され、人間の視覚的認知のいくつかの次元は、写真やキャプションをエンコードすることができないエージェント中心の3次元体験を必要とする可能性があることを示唆している。
関連論文リスト
- Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models? [5.726418224480853]
視覚言語モデル(VLM)は、どちらのタスクでもテキストのみのモデルより優れているわけではない。
VLMは、他の知覚次元と比較して視覚次元が著しく悪い。
本研究は,マルチモーダル言語モデルにおけるエンボディド知識のより効果的な統合の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-19T16:43:04Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Does Vision Accelerate Hierarchical Generalization in Neural Language Learners? [32.9355090864485]
本研究では、基底言語習得の利点、特に視覚情報がニューラル言語モデル(LM)の構文一般化に与える影響について検討する。
実験の結果,言語的要素と視覚的要素のアライメントが明確であれば,視覚データへのアクセスはLMの構文的一般化に役立つが,そうでなければ視覚的入力は役に立たないことがわかった。
これは、相互の視線のような追加のバイアスや信号の必要性を強調し、クロスモーダルアライメントを強化し、マルチモーダルLMにおける効率的な統語的一般化を可能にする。
論文 参考訳(メタデータ) (2023-02-01T18:53:42Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。