論文の概要: Decoupling the components of geometric understanding in Vision Language Models
- arxiv url: http://arxiv.org/abs/2503.03840v1
- Date: Wed, 05 Mar 2025 19:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:57.566634
- Title: Decoupling the components of geometric understanding in Vision Language Models
- Title(参考訳): 視覚言語モデルにおける幾何学的理解の構成要素の分離
- Authors: Eliza Kosoy, Annya Dahmani, Andrew K. Lampinen, Iulia M. Comsa, Soojin Jeong, Ishita Dasgupta, Kelsey Allen,
- Abstract要約: 我々は、最先端の視覚言語モデル(VLM)が単純な幾何学的概念を理解できるかどうかを評価する。
本研究は、米国における成人のモデルパフォーマンスと、アマゾンの先住民集団による正式な教育を受けていない成人の先行研究とを比較した。
また、VLMの幾何学的理解は人間の理解よりも不安定であり、タスクが精神的回転を必要とする場合、堅牢ではないことも見出した。
- 参考スコア(独自算出の注目度): 13.236244596434757
- License:
- Abstract: Understanding geometry relies heavily on vision. In this work, we evaluate whether state-of-the-art vision language models (VLMs) can understand simple geometric concepts. We use a paradigm from cognitive science that isolates visual understanding of simple geometry from the many other capabilities it is often conflated with such as reasoning and world knowledge. We compare model performance with human adults from the USA, as well as with prior research on human adults without formal education from an Amazonian indigenous group. We find that VLMs consistently underperform both groups of human adults, although they succeed with some concepts more than others. We also find that VLM geometric understanding is more brittle than human understanding, and is not robust when tasks require mental rotation. This work highlights interesting differences in the origin of geometric understanding in humans and machines -- e.g. from printed materials used in formal education vs. interactions with the physical world or a combination of the two -- and a small step toward understanding these differences.
- Abstract(参考訳): 幾何学を理解することは視覚に大きく依存する。
本研究では,最先端の視覚言語モデル(VLM)が単純な幾何学的概念を理解できるかどうかを評価する。
我々は認知科学のパラダイムを用いて、単純な幾何学の視覚的理解を、推論や世界知識と混同される多くの他の能力から分離する。
本研究は、米国における成人のモデルパフォーマンスと、アマゾンの先住民集団による正式な教育を受けていない成人の先行研究とを比較した。
VLMは、他の概念よりもいくつかの概念で成功するが、人間の成体の両方の群で一貫して性能が劣っていることが判明した。
また、VLMの幾何学的理解は人間の理解よりも不安定であり、タスクが精神的回転を必要とする場合、堅牢ではないことも見出した。
この研究は、人や機械における幾何学的理解の起源(例えば、正式な教育で使用される印刷物と物理的世界との相互作用、あるいは2つの組み合わせ)における興味深い違いと、これらの違いを理解するための小さなステップを浮き彫りにしている。
関連論文リスト
- Human-like conceptual representations emerge from language prediction [72.5875173689788]
大型言語モデル(LLM)における人間に似た概念表現の出現について検討した。
その結果、LLMは定義記述から概念を推論し、共有された文脈に依存しない構造に収束する表現空間を構築することができた。
我々の研究は、LLMが複雑な人間の認知を理解するための貴重なツールであり、人工知能と人間の知能の整合性を高めるための道を開くという見解を支持している。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Human-like object concept representations emerge naturally in multimodal large language models [24.003766123531545]
大規模言語モデルにおける対象概念の表現が人間とどのように関連しているかを明らかにするために,行動解析と神経画像解析を併用した。
その結果,66次元の埋め込みは非常に安定で予測的であり,人間の心的表現に類似したセマンティッククラスタリングが認められた。
本研究は、機械知能の理解を深め、より人間的な人工知能システムの開発を知らせるものである。
論文 参考訳(メタデータ) (2024-07-01T08:17:19Z) - Human-Like Geometric Abstraction in Large Pre-trained Neural Networks [6.650735854030166]
幾何学的視覚処理の認知科学における経験的結果を再考する。
幾何学的視覚処理における3つの重要なバイアスを同定する。
我々は、人間のバイアスを調査する文献からタスクをテストし、AIで使用される大規模なトレーニング済みニューラルネットワークモデルにより、より人間的な抽象幾何学的処理が示されることを示した。
論文 参考訳(メタデータ) (2024-02-06T17:59:46Z) - A Theory of Human-Like Few-Shot Learning [14.271690184738205]
我々は、フォン・ノイマン=ランダウアーの原理から人間のような小ショット学習の理論を導いた。
変分オートエンコーダ(VAE)のような深部生成モデルを用いて,この理論を近似することができる。
論文 参考訳(メタデータ) (2023-01-03T11:22:37Z) - Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文 参考訳(メタデータ) (2022-12-14T01:37:16Z) - Geometric Features Informed Multi-person Human-object Interaction
Recognition in Videos [19.64072251418535]
我々は、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせることを主張する。
本稿では,2G-GCN (2-level Geometric feature-informed Graph Convolutional Network) を提案する。
挑戦シナリオにおける本手法の新規性と有効性を示すために,新しい多人数HOIデータセット(MPHOI-72)を提案する。
論文 参考訳(メタデータ) (2022-07-19T17:36:55Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。