Fugu-MT 論文翻訳(概要): Failures in Perspective-taking of Multimodal AI Systems

論文の概要: Failures in Perspective-taking of Multimodal AI Systems

arxiv url: http://arxiv.org/abs/2409.13929v1
Date: Fri, 20 Sep 2024 22:31:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 04:28:44.144109
Title: Failures in Perspective-taking of Multimodal AI Systems
Title（参考訳）: マルチモーダルAIシステムにおける視点決定の失敗
Authors: Bridget Leonard, Kristin Woodard, Scott O. Murray,
Abstract要約: 本研究は,マルチモーダルAIシステムにおける空間表現に関するこれまでの研究を拡張した。認知・発達科学の手法を応用し, GPT-4oの視点的能力を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study extends previous research on spatial representations in multimodal AI systems. Although current models demonstrate a rich understanding of spatial information from images, this information is rooted in propositional representations, which differ from the analog representations employed in human and animal spatial cognition. To further explore these limitations, we apply techniques from cognitive and developmental science to assess the perspective-taking abilities of GPT-4o. Our analysis enables a comparison between the cognitive development of the human brain and that of multimodal AI, offering guidance for future research and model development.
Abstract（参考訳）: 本研究は,マルチモーダルAIシステムにおける空間表現に関するこれまでの研究を拡張した。現在のモデルでは、画像からの空間情報の豊富な理解が示されていますが、この情報は、人間や動物の空間認知において使用されるアナログ表現とは異なる、命題表現に根ざしています。これらの限界をさらに探求するため,GPT-4oの視点決定能力を評価するために,認知・発達科学の手法を適用した。我々の分析は、人間の脳の認知発達とマルチモーダルAIの比較を可能にし、将来の研究とモデル開発のためのガイダンスを提供する。

関連論文リスト

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers [90.4459196223986]
同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへのパラダイムシフトを象徴している。この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。
論文参考訳（メタデータ） (2025-06-30T14:48:35Z)
SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。 SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文参考訳（メタデータ） (2025-05-08T17:45:44Z)
Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs [0.0]
本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-03T09:14:24Z)
Thinking beyond the anthropomorphic paradigm benefits LLM research [1.7392902719515677]
私たちは過去10年で何十万ものコンピュータサイエンス研究論文を分析しました。大型言語モデル(LLM)研究における人類型用語の有病率と成長の実証的証拠を提示する。これらの概念化は制限されている可能性があり、人間の類推を超えてLLMの理解と改善のための新たな道を開くと我々は主張する。
論文参考訳（メタデータ） (2025-02-13T11:32:09Z)
User-centric evaluation of explainability of AI with and for humans: a comprehensive empirical study [5.775094401949666]
この研究はHuman-Centered Artificial Intelligence (HCAI)にある。一般的に使用されるeXplainable Artificial Intelligence (XAI)アルゴリズムのユーザ中心評価の結果に焦点を当てている。
論文参考訳（メタデータ） (2024-10-21T12:32:39Z)
Opening the Black-Box: A Systematic Review on Explainable AI in Remote Sensing [51.524108608250074]
ブラックボックス機械学習アプローチは、リモートセンシングにおける知識抽出における主要なモデリングパラダイムとなっている。我々は、この分野における重要なトレンドを特定するための体系的なレビューを行い、新しい説明可能なAIアプローチに光を当てた。また,課題と将来的な研究方向性について,より詳細な展望を述べる。
論文参考訳（メタデータ） (2024-02-21T13:19:58Z)
Learning Interpretable Concepts: Unifying Causal Representation Learning and Foundation Models [51.43538150982291]
人間の解釈可能な概念をデータから学習する方法を研究する。両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文参考訳（メタデータ） (2024-02-14T15:23:59Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
A Survey of Explainable AI in Deep Visual Modeling: Methods and Metrics [24.86176236641865]
我々は、ディープビジュアルモデルを解釈するための方法とメトリクスに焦点を当てたExplainable AIの最初の調査を示す。最先端技術に沿った目覚ましい貢献をカバーし、既存の技術に関する分類学的組織を提供するだけでなく、さまざまな評価指標を発掘する。
論文参考訳（メタデータ） (2023-01-31T06:49:42Z)
Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文参考訳（メタデータ） (2022-08-17T12:36:26Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
Spatiotemporal Patterns in Neurobiology: An Overview for Future Artificial Intelligence [0.0]
我々は,ネットワーク相互作用から生じる機能を明らかにする上で,計算モデルが重要なツールであると主張している。ここでは、スパイキングニューロン、統合ニューロン、発火ニューロンを含むいくつかのモデルのクラスについてレビューする。これらの研究は、人工知能アルゴリズムの今後の発展と、脳のプロセスの理解の検証に役立つことを願っている。
論文参考訳（メタデータ） (2022-03-29T10:28:01Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Towards Understanding Human Functional Brain Development with Explainable Artificial Intelligence: Challenges and Perspectives [6.106661781836959]
本稿では,現在最先端のAI技術が機能的脳発達にどのような影響を及ぼすかを理解することを目的とする。また、脳の発達過程に基づいて、どのAI技術が彼らの学習を説明する可能性が高いかについてのレビューも実施されている。
論文参考訳（メタデータ） (2021-12-24T02:13:13Z)
Understanding Information Processing in Human Brain by Interpreting Machine Learning Models [1.14219428942199]
この論文は、ニューラルネットワークの直感的な計算モデルを作成する上で、機械学習メソッドが果たす役割を探求している。この視点は、コンピュータ神経科学に対する探索的およびデータ駆動のアプローチが果たす大きな役割を支持する。
論文参考訳（メタデータ） (2020-10-17T04:37:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。