論文の概要: Vision Language Models Know Law of Conservation without Understanding More-or-Less
- arxiv url: http://arxiv.org/abs/2410.00332v2
- Date: Sat, 14 Dec 2024 02:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:49:41.021040
- Title: Vision Language Models Know Law of Conservation without Understanding More-or-Less
- Title(参考訳): 視覚言語モデルによる保存法則の理解
- Authors: Dezhi Luo, Haiyun Lyu, Qingying Gao, Haoran Sun, Yijiang Li, Hokin Deng,
- Abstract要約: 保存は、量的概念の理解によって支えられると考えられる認知発達の重要なマイルストーンである。
我々は、データ集約型認知実験ベンチマークであるCogDevelop2KのConserveBenchを利用して、マシンインテリジェンスの発達軌跡を計測する。
VLMは一般に保存できるが、一般的に成功は保存する能力によって引き起こされると考えられる非変換タスクでは失敗する傾向にある。
- 参考スコア(独自算出の注目度): 9.268588981925234
- License:
- Abstract: Conservation is a critical milestone of cognitive development considered to be supported by both the understanding of quantitative concepts and the reversibility of mental operations. To assess whether this critical component of human intelligence has emerged in Vision Language Models, we leverage the ConserveBench from CogDevelop2K, a data-intensive cognitive experiment benchmark for assaying the developmental trajectory of machine intelligence. The battery includes over 350 questions across four dimensions of physical quantities: volume, solid quantity, length, and number. The former two involve only transformational tasks, whereas the latter two also involve non-transformational tasks assessing the understanding of quantitative concepts alone. Surprisingly, we find that while VLMs are generally capable of conserving, they tend to fail at non-transformational tasks which success is typically considered to be entailed by the ability to conserve. This implies that the law of conservation, at least in concrete domains, may exist without corresponding conceptual understanding of quantity. $\href{https://growing-ai-like-a-child.github.io/pages/Conservation/}{Website}$
- Abstract(参考訳): 保存は、量的概念の理解と精神的操作の可逆性の両方によって支えられると考えられる認知発達の重要なマイルストーンである。
視覚言語モデルにおいて、この人間の知性の重要な要素が出現したかどうかを評価するために、我々は、機械学習の発達軌跡を評価するためのデータ集約型認知実験ベンチマークであるCogDevelop2KのConserveBenchを利用する。
バッテリーには4次元の物理量(体積、固体量、長さ、数)に350以上の質問が含まれている。
後者の2つは、量的概念のみの理解を評価する非変換的タスクも含む。
驚いたことに、VLMは一般的に保存できるが、一般的に成功は保存する能力によって引き起こされると考えられる非変換タスクでは失敗する傾向にある。
これは、少なくとも具体的な領域において、保存の法則が、量の概念的な理解なしに存在することを示唆している。
$\href{https:// growing-ai-like-a-child.github.io/pages/Conservation/}{Website}$
関連論文リスト
- Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。
視覚言語モデルにおける意図理解とレベル2視点抽出について検討した。
論文 参考訳(メタデータ) (2024-10-01T01:52:01Z) - Evaluating Attribute Comprehension in Large Vision-Language Models [18.513510568037624]
本研究では,属性認識と属性階層理解という2つの視点から,大規模視覚言語モデルの属性理解能力を評価する。
1)大きな視覚言語モデルは属性認識能力が高いが,その階層的理解能力は比較的限られている。
この研究が、大きな視覚言語モデルのきめ細かな視覚的理解の今後の進歩を導くのに役立つことを願っている。
論文 参考訳(メタデータ) (2024-08-25T17:42:05Z) - Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-16T03:50:38Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering [38.05223339919346]
我々は,V&Lモデルの忠実度をこのような幾何学的理解に向けて評価する。
我々は、市販の深度推定器から弱い監督でV&Lを訓練する。
これにより、"GQA"視覚的質問応答チャレンジの精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-09-04T21:29:06Z) - Bi-directional Cognitive Thinking Network for Machine Reading
Comprehension [18.690332722963568]
読解のための双方向認知知識フレームワーク(BCKF)を提案する。
逆思考や慣性思考など、脳内の2つの考え方をシミュレートして質問に答えることを目的としている。
論文 参考訳(メタデータ) (2020-10-20T13:56:30Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。