論文の概要: Vision Language Models Know Law of Conservation without Understanding More-or-Less
- arxiv url: http://arxiv.org/abs/2410.00332v3
- Date: Sun, 22 Dec 2024 07:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:35.427649
- Title: Vision Language Models Know Law of Conservation without Understanding More-or-Less
- Title(参考訳): 視覚言語モデルによる保存法則の理解
- Authors: Dezhi Luo, Haiyun Lyu, Qingying Gao, Haoran Sun, Yijiang Li, Hokin Deng,
- Abstract要約: ConserveBenchは、物理量の4次元にわたる365の認知実験の電池である。
ビジョン言語モデルは一般に保存できるが、非変換タスクでは失敗する傾向にある。
これは、少なくとも具体的な領域において、保存の法則が、量の概念的な理解なしに存在することを示唆している。
- 参考スコア(独自算出の注目度): 9.268588981925234
- License:
- Abstract: Conservation is a critical milestone of cognitive development considered to be supported by both the understanding of quantitative concepts and the reversibility of mental operations. To assess whether this critical component of human intelligence has emerged in Vision Language Models, we have curated the ConserveBench, a battery of 365 cognitive experiments across four dimensions of physical quantities: volume, solid quantity, length, and number. The former two involve only transformational tasks, whereas the latter two involve non-transformational tasks assessing the understanding of quantitative concepts alone. Surprisingly, we find that while Vision Language Models are generally capable of conserving, they tend to fail at non-transformational tasks whose successes are typically considered to be evidence of the ability to conserve. This implies that the law of conservation, at least in concrete domains, may exist without corresponding conceptual understanding of quantity. $\href{https://growing-ai-like-a-child.github.io/pages/Conservation/}{Website}$
- Abstract(参考訳): 保存は、量的概念の理解と精神的操作の可逆性の両方によって支えられると考えられる認知発達の重要なマイルストーンである。
人間の知能のこの重要な構成要素がビジョン言語モデルに現れたかどうかを評価するため、我々は、体積、固体量、長さ、数という4つの物理的次元にわたる365の認知実験の電池であるConserveBenchをキュレートした。
後者の2つは、量的概念のみの理解を評価する非変換的タスクを含む。
意外なことに、Vision Language Modelsは一般的に保存できるが、一般的に成功が保存する能力の証拠と見なされる非変換タスクでは失敗する傾向にある。
これは、少なくとも具体的な領域において、保存の法則が、量の概念的な理解なしに存在することを示唆している。
$\href{https:// growing-ai-like-a-child.github.io/pages/Conservation/}{Website}$
関連論文リスト
- Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
本稿では,視覚言語モデルにおける意図理解と視点獲得について考察する。
意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-01T01:52:01Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - Enhancing Quantitative Reasoning Skills of Large Language Models through
Dimension Perception [45.26805543017572]
我々は次元の概念が量を理解するのに不可欠であると主張する。
本稿では,次元知覚に基づく言語モデルの定量的推論能力を高める枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-29T09:29:37Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - COPEN: Probing Conceptual Knowledge in Pre-trained Language Models [60.10147136876669]
概念的知識は人間の認知と知識基盤の基本である。
既存の知識探索作業は、事前訓練された言語モデル(PLM)の事実知識のみに焦点を当て、概念知識を無視する。
PLMが概念的類似性によってエンティティを編成し、概念的特性を学習し、コンテキスト内でエンティティを概念化するかどうかを調査する3つのタスクを設計する。
タスクのために、393のコンセプトをカバーする24kのデータインスタンスを収集、注釈付けします。
論文 参考訳(メタデータ) (2022-11-08T08:18:06Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering [38.05223339919346]
我々は,V&Lモデルの忠実度をこのような幾何学的理解に向けて評価する。
我々は、市販の深度推定器から弱い監督でV&Lを訓練する。
これにより、"GQA"視覚的質問応答チャレンジの精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-09-04T21:29:06Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。