Fugu-MT 論文翻訳(概要): Visual cognition in multimodal large language models

論文の概要: Visual cognition in multimodal large language models

arxiv url: http://arxiv.org/abs/2311.16093v2
Date: Wed, 24 Jan 2024 11:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 16:51:30.696868
Title: Visual cognition in multimodal large language models
Title（参考訳）: マルチモーダル大言語モデルにおける視覚認知
Authors: Luca M. Schulze Buschoff, Elif Akata, Matthias Bethge, Eric Schulz
Abstract要約: 本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。その結果、これらのモデルは、視覚データの処理と解釈において顕著な熟練度を示す一方で、これらの領域における人間の能力に欠けていることが判明した。
参考スコア（独自算出の注目度）: 13.768104721550321
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A chief goal of artificial intelligence is to build machines that think like people. Yet it has been argued that deep neural network architectures fail to accomplish this. Researchers have asserted these models' limitations in the domains of causal reasoning, intuitive physics, and intuitive psychology. Yet recent advancements, namely the rise of large language models, particularly those designed for visual processing, have rekindled interest in the potential to emulate human-like cognitive abilities. This paper evaluates the current state of vision-based large language models in the domains of intuitive physics, causal reasoning, and intuitive psychology. Through a series of controlled experiments, we investigate the extent to which these modern models grasp complex physical interactions, causal relationships, and intuitive understanding of others' preferences. Our findings reveal that, while these models demonstrate a notable proficiency in processing and interpreting visual data, they still fall short of human capabilities in these areas. The models exhibit a rudimentary understanding of physical laws and causal relationships, but their performance is hindered by a lack of deeper insights - a key aspect of human cognition. Furthermore, in tasks requiring an intuitive theory of mind, the models fail altogether. Our results emphasize the need for integrating more robust mechanisms for understanding causality, physical dynamics, and social cognition into modern-day, vision-based language models, and point out the importance of cognitively-inspired benchmarks.
Abstract（参考訳）: 人工知能の主な目標は、人間のように考える機械を作ることだ。しかし、ディープニューラルネットワークアーキテクチャはそれを達成できないと主張されている。研究者は、因果推論、直観物理学、直観心理学の領域におけるこれらのモデルの限界を主張している。しかし、最近の進歩、特に視覚処理用に設計された大規模言語モデルの台頭は、人間のような認知能力をエミュレートする可能性に対する関心を再び高めている。本稿では,直観的物理学,因果推論,直観的心理学の領域における視覚に基づく大規模言語モデルの現状を評価する。これらのモデルが複雑な物理的相互作用、因果関係、他者の嗜好の直感的理解を把握できる範囲について、一連の制御実験を通じて検討した。以上の結果から,これらのモデルでは視覚データの処理や解釈に有意な能力があるものの,その領域では人間の能力に欠けることが明らかとなった。モデルは、物理的法則と因果関係の初歩的な理解を示すが、そのパフォーマンスは深い洞察の欠如、すなわち人間の認知の重要な側面によって妨げられている。さらに、直感的な心の理論を必要とするタスクでは、モデルは完全に失敗する。本研究は,因果性,身体的ダイナミクス,社会的認知を現代的な視覚言語モデルに統合するためのより強固なメカニズムの必要性を強調し,認知的にインスパイアされたベンチマークの重要性を指摘する。

関連論文リスト

Reasoning in machine vision: learning to think fast and slow [10.430190333487957]
推論は人間の知性の目印であり、複雑で不慣れなシナリオで適応的な意思決定を可能にする。マシンインテリジェンスは、推論時にソリューションを動的に洗練する能力がないため、トレーニングデータに縛られている。本稿では,思考時間の増加に伴う性能向上を実現することにより,視覚における機械推論を可能にする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-06-27T10:03:05Z)
Human-like Cognitive Generalization for Large Models via Brain-in-the-loop Supervision [22.553688605475333]
脳内学習が人間の概念構造をディープニューラルネットワーク(DNN)に効果的に伝達できることを示す。実験結果から,認知能力の向上が課題の達成に寄与することが示唆された。これらの結果から,大規模モデルの複雑な認知能力を効果的に増強できる可能性が示唆された。
論文参考訳（メタデータ） (2025-05-14T02:39:10Z)
Testing the limits of fine-tuning to improve reasoning in vision language models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。微調整は、他の視覚的特徴を持つデータや、他の認知領域におけるタスクに対する人間のような堅牢な一般化に寄与しない。
論文参考訳（メタデータ） (2025-02-21T18:58:30Z)
From Imitation to Introspection: Probing Self-Consciousness in Language Models [8.357696451703058]
自己意識は自己の存在と思考の内省である。本研究は,言語モデルに対する自己意識の実践的定義を示す。
論文参考訳（メタデータ） (2024-10-24T15:08:17Z)
Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文参考訳（メタデータ） (2024-04-05T07:31:24Z)
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文参考訳（メタデータ） (2024-04-03T23:57:34Z)
A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文参考訳（メタデータ） (2023-10-14T23:28:48Z)
Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文参考訳（メタデータ） (2023-06-06T18:00:01Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
A Benchmark for Modeling Violation-of-Expectation in Physical Reasoning Across Event Categories [4.4920673251997885]
VoE(Violation-of-Expectation)は、期待されたシーンのみの知識で、期待されたシーンまたは驚きのシーンをラベル付けするために用いられる。物理推論における既存のVoEベースの3Dデータセットは、ほとんど真実や帰納バイアスのない視覚データを提供する。我々は、因果関係のある特徴と規則の基調ラベルを組み込んだ、新しい大規模合成3D VoEデータセットをキュレートすることで、身体的推論を研究するためのベンチマークを構築した。
論文参考訳（メタデータ） (2021-11-16T22:59:25Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
Data augmentation and image understanding [2.123756175601459]
論文は、機械学習、認知科学、神経科学の間の有利なシナジーを探求する。論文は、視覚知覚や生物学的視覚とより整合した学習表現に焦点を当てている。
論文参考訳（メタデータ） (2020-12-28T11:00:52Z)
Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文参考訳（メタデータ） (2020-06-15T13:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。