論文の概要: Failures in Perspective-taking of Multimodal AI Systems
- arxiv url: http://arxiv.org/abs/2409.13929v1
- Date: Fri, 20 Sep 2024 22:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:56:39.686837
- Title: Failures in Perspective-taking of Multimodal AI Systems
- Title(参考訳): マルチモーダルAIシステムにおける視点決定の失敗
- Authors: Bridget Leonard, Kristin Woodard, Scott O. Murray,
- Abstract要約: 本研究は,マルチモーダルAIシステムにおける空間表現に関するこれまでの研究を拡張した。
認知・発達科学の手法を応用し, GPT-4oの視点的能力を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study extends previous research on spatial representations in multimodal AI systems. Although current models demonstrate a rich understanding of spatial information from images, this information is rooted in propositional representations, which differ from the analog representations employed in human and animal spatial cognition. To further explore these limitations, we apply techniques from cognitive and developmental science to assess the perspective-taking abilities of GPT-4o. Our analysis enables a comparison between the cognitive development of the human brain and that of multimodal AI, offering guidance for future research and model development.
- Abstract(参考訳): 本研究は,マルチモーダルAIシステムにおける空間表現に関するこれまでの研究を拡張した。
現在のモデルでは、画像からの空間情報の豊富な理解が示されていますが、この情報は、人間や動物の空間認知において使用されるアナログ表現とは異なる、命題表現に根ざしています。
これらの限界をさらに探求するため,GPT-4oの視点決定能力を評価するために,認知・発達科学の手法を適用した。
我々の分析は、人間の脳の認知発達とマルチモーダルAIの比較を可能にし、将来の研究とモデル開発のためのガイダンスを提供する。
関連論文リスト
- Human Modelling and Pose Estimation Overview [0.0]
人間のモデリングとポーズ推定は、コンピュータビジョン、コンピュータグラフィックス、機械学習の交差点に立っている。
本稿では,この学際分野を網羅的に研究し,様々なアルゴリズム,方法論,実践的応用について検討する。
論文 参考訳(メタデータ) (2024-06-27T16:04:41Z) - Learning Interpretable Concepts: Unifying Causal Representation Learning
and Foundation Models [51.43538150982291]
人間の解釈可能な概念をデータから学習する方法を研究する。
両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:23:59Z) - A Survey of Reasoning with Foundation Models [235.7288855108172]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。
本稿では,推論に適応する基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
論文 参考訳(メタデータ) (2023-12-17T15:16:13Z) - A Survey of Explainable AI in Deep Visual Modeling: Methods and Metrics [24.86176236641865]
我々は、ディープビジュアルモデルを解釈するための方法とメトリクスに焦点を当てたExplainable AIの最初の調査を示す。
最先端技術に沿った目覚ましい貢献をカバーし、既存の技術に関する分類学的組織を提供するだけでなく、さまざまな評価指標を発掘する。
論文 参考訳(メタデータ) (2023-01-31T06:49:42Z) - Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on
Neuro-Symbolic Computing [66.91310801654548]
ニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。
NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示す。
論文 参考訳(メタデータ) (2022-10-28T04:38:10Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Spatiotemporal Patterns in Neurobiology: An Overview for Future
Artificial Intelligence [0.0]
我々は,ネットワーク相互作用から生じる機能を明らかにする上で,計算モデルが重要なツールであると主張している。
ここでは、スパイキングニューロン、統合ニューロン、発火ニューロンを含むいくつかのモデルのクラスについてレビューする。
これらの研究は、人工知能アルゴリズムの今後の発展と、脳のプロセスの理解の検証に役立つことを願っている。
論文 参考訳(メタデータ) (2022-03-29T10:28:01Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Towards Understanding Human Functional Brain Development with
Explainable Artificial Intelligence: Challenges and Perspectives [6.106661781836959]
本稿では,現在最先端のAI技術が機能的脳発達にどのような影響を及ぼすかを理解することを目的とする。
また、脳の発達過程に基づいて、どのAI技術が彼らの学習を説明する可能性が高いかについてのレビューも実施されている。
論文 参考訳(メタデータ) (2021-12-24T02:13:13Z) - Understanding Information Processing in Human Brain by Interpreting
Machine Learning Models [1.14219428942199]
この論文は、ニューラルネットワークの直感的な計算モデルを作成する上で、機械学習メソッドが果たす役割を探求している。
この視点は、コンピュータ神経科学に対する探索的およびデータ駆動のアプローチが果たす大きな役割を支持する。
論文 参考訳(メタデータ) (2020-10-17T04:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。