論文の概要: Visual cognition in multimodal large language models
- arxiv url: http://arxiv.org/abs/2311.16093v2
- Date: Wed, 24 Jan 2024 11:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:51:30.696868
- Title: Visual cognition in multimodal large language models
- Title(参考訳): マルチモーダル大言語モデルにおける視覚認知
- Authors: Luca M. Schulze Buschoff, Elif Akata, Matthias Bethge, Eric Schulz
- Abstract要約: 本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
その結果、これらのモデルは、視覚データの処理と解釈において顕著な熟練度を示す一方で、これらの領域における人間の能力に欠けていることが判明した。
- 参考スコア(独自算出の注目度): 13.768104721550321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A chief goal of artificial intelligence is to build machines that think like
people. Yet it has been argued that deep neural network architectures fail to
accomplish this. Researchers have asserted these models' limitations in the
domains of causal reasoning, intuitive physics, and intuitive psychology. Yet
recent advancements, namely the rise of large language models, particularly
those designed for visual processing, have rekindled interest in the potential
to emulate human-like cognitive abilities. This paper evaluates the current
state of vision-based large language models in the domains of intuitive
physics, causal reasoning, and intuitive psychology. Through a series of
controlled experiments, we investigate the extent to which these modern models
grasp complex physical interactions, causal relationships, and intuitive
understanding of others' preferences. Our findings reveal that, while these
models demonstrate a notable proficiency in processing and interpreting visual
data, they still fall short of human capabilities in these areas. The models
exhibit a rudimentary understanding of physical laws and causal relationships,
but their performance is hindered by a lack of deeper insights - a key aspect
of human cognition. Furthermore, in tasks requiring an intuitive theory of
mind, the models fail altogether. Our results emphasize the need for
integrating more robust mechanisms for understanding causality, physical
dynamics, and social cognition into modern-day, vision-based language models,
and point out the importance of cognitively-inspired benchmarks.
- Abstract(参考訳): 人工知能の主な目標は、人間のように考える機械を作ることだ。
しかし、ディープニューラルネットワークアーキテクチャはそれを達成できないと主張されている。
研究者は、因果推論、直観物理学、直観心理学の領域におけるこれらのモデルの限界を主張している。
しかし、最近の進歩、特に視覚処理用に設計された大規模言語モデルの台頭は、人間のような認知能力をエミュレートする可能性に対する関心を再び高めている。
本稿では,直観的物理学,因果推論,直観的心理学の領域における視覚に基づく大規模言語モデルの現状を評価する。
これらのモデルが複雑な物理的相互作用、因果関係、他者の嗜好の直感的理解を把握できる範囲について、一連の制御実験を通じて検討した。
以上の結果から,これらのモデルでは視覚データの処理や解釈に有意な能力があるものの,その領域では人間の能力に欠けることが明らかとなった。
モデルは、物理的法則と因果関係の初歩的な理解を示すが、そのパフォーマンスは深い洞察の欠如、すなわち人間の認知の重要な側面によって妨げられている。
さらに、直感的な心の理論を必要とするタスクでは、モデルは完全に失敗する。
本研究は,因果性,身体的ダイナミクス,社会的認知を現代的な視覚言語モデルに統合するためのより強固なメカニズムの必要性を強調し,認知的にインスパイアされたベンチマークの重要性を指摘する。
関連論文リスト
- From Imitation to Introspection: Probing Self-Consciousness in Language Models [8.357696451703058]
自己意識は自己の存在と思考の内省である。
本研究は,言語モデルに対する自己意識の実践的定義を示す。
論文 参考訳(メタデータ) (2024-10-24T15:08:17Z) - Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - A Benchmark for Modeling Violation-of-Expectation in Physical Reasoning
Across Event Categories [4.4920673251997885]
VoE(Violation-of-Expectation)は、期待されたシーンのみの知識で、期待されたシーンまたは驚きのシーンをラベル付けするために用いられる。
物理推論における既存のVoEベースの3Dデータセットは、ほとんど真実や帰納バイアスのない視覚データを提供する。
我々は、因果関係のある特徴と規則の基調ラベルを組み込んだ、新しい大規模合成3D VoEデータセットをキュレートすることで、身体的推論を研究するためのベンチマークを構築した。
論文 参考訳(メタデータ) (2021-11-16T22:59:25Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Data augmentation and image understanding [2.123756175601459]
論文は、機械学習、認知科学、神経科学の間の有利なシナジーを探求する。
論文は、視覚知覚や生物学的視覚とより整合した学習表現に焦点を当てている。
論文 参考訳(メタデータ) (2020-12-28T11:00:52Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。