論文の概要: Have we built machines that think like people?
- arxiv url: http://arxiv.org/abs/2311.16093v1
- Date: Mon, 27 Nov 2023 18:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 13:37:57.051901
- Title: Have we built machines that think like people?
- Title(参考訳): 人を思わせる機械を作ったか?
- Authors: Luca M. Schulze Buschoff, Elif Akata, Matthias Bethge, Eric Schulz
- Abstract要約: 本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
その結果、これらのモデルは、視覚データの処理と解釈において顕著な熟練度を示す一方で、これらの領域における人間の能力に欠けていることが判明した。
- 参考スコア(独自算出の注目度): 13.768104721550321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A chief goal of artificial intelligence is to build machines that think like
people. Yet it has been argued that deep neural network architectures fail to
accomplish this. Researchers have asserted these models' limitations in the
domains of causal reasoning, intuitive physics, and intuitive psychology. Yet
recent advancements, namely the rise of large language models, particularly
those designed for visual processing, have rekindled interest in the potential
to emulate human-like cognitive abilities. This paper evaluates the current
state of vision-based large language models in the domains of intuitive
physics, causal reasoning, and intuitive psychology. Through a series of
controlled experiments, we investigate the extent to which these modern models
grasp complex physical interactions, causal relationships, and intuitive
understanding of others' preferences. Our findings reveal that, while these
models demonstrate a notable proficiency in processing and interpreting visual
data, they still fall short of human capabilities in these areas. The models
exhibit a rudimentary understanding of physical laws and causal relationships,
but their performance is hindered by a lack of deeper insights-a key aspect of
human cognition. Furthermore, in tasks requiring an intuitive theory of mind,
the models fail altogether. Our results emphasize the need for integrating more
robust mechanisms for understanding causality, physical dynamics, and social
cognition into modern-day, vision-based language models, and point out the
importance of cognitively-inspired benchmarks.
- Abstract(参考訳): 人工知能の主な目標は、人間のように考える機械を作ることだ。
しかし、ディープニューラルネットワークアーキテクチャはそれを達成できないと主張されている。
研究者は、因果推論、直観物理学、直観心理学の領域におけるこれらのモデルの限界を主張している。
しかし、最近の進歩、特に視覚処理用に設計された大規模言語モデルの台頭は、人間のような認知能力をエミュレートする可能性に対する関心を再び高めている。
本稿では,直観的物理学,因果推論,直観的心理学の領域における視覚に基づく大規模言語モデルの現状を評価する。
これらのモデルが複雑な物理的相互作用、因果関係、他者の嗜好の直感的理解を把握できる範囲について、一連の制御実験を通じて検討した。
以上の結果から,これらのモデルでは視覚データの処理や解釈に有意な能力があるものの,その領域では人間の能力に欠けることが明らかとなった。
これらのモデルは、物理的法則と因果関係の初歩的な理解を示すが、その性能は人間の認知の重要な側面である深い洞察の欠如によって妨げられている。
さらに、直感的な心の理論を必要とするタスクでは、モデルは完全に失敗する。
本研究は,因果性,身体的ダイナミクス,社会的認知を現代的な視覚言語モデルに統合するためのより強固なメカニズムの必要性を強調し,認知的にインスパイアされたベンチマークの重要性を指摘する。
関連論文リスト
- Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - A Benchmark for Modeling Violation-of-Expectation in Physical Reasoning
Across Event Categories [4.4920673251997885]
VoE(Violation-of-Expectation)は、期待されたシーンのみの知識で、期待されたシーンまたは驚きのシーンをラベル付けするために用いられる。
物理推論における既存のVoEベースの3Dデータセットは、ほとんど真実や帰納バイアスのない視覚データを提供する。
我々は、因果関係のある特徴と規則の基調ラベルを組み込んだ、新しい大規模合成3D VoEデータセットをキュレートすることで、身体的推論を研究するためのベンチマークを構築した。
論文 参考訳(メタデータ) (2021-11-16T22:59:25Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Dissonance Between Human and Machine Understanding [16.32018730049208]
本稿では,人間と機械の理解との不協和を解明し,定量化する大規模クラウドソーシング研究を行う。
私たちの発見は、人工知能の分野における長期的な目標は、人間のように学習し推論できる機械を作ることであると考え、人間と機械のコラボレーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2021-01-18T21:45:35Z) - Causal World Models by Unsupervised Deconfounding of Physical Dynamics [20.447000858907646]
世界の精神モデルで内部を想像する能力は、人間の認知にとって極めて重要である。
本稿では,相互関係の教師なしモデリングを可能にするCausal World Models(CWMs)を提案する。
強化学習タスクの複雑性サンプルの削減と、反実物的推論の改善を示します。
論文 参考訳(メタデータ) (2020-12-28T13:44:36Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。