論文の概要: Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA
- arxiv url: http://arxiv.org/abs/2410.06524v1
- Date: Wed, 9 Oct 2024 03:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:09:09.786123
- Title: Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA
- Title(参考訳): 偉大な心は同じように考えるか?CAIMIRAを用いた質問応答における人間とAIの相補性の検討
- Authors: Maharshi Gor, Hal Daumé III, Tianyi Zhou, Jordan Boyd-Graber,
- Abstract要約: 人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
- 参考スコア(独自算出の注目度): 43.116608441891096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements of large language models (LLMs) have led to claims of AI surpassing humans in natural language processing (NLP) tasks such as textual understanding and reasoning. This work investigates these assertions by introducing CAIMIRA, a novel framework rooted in item response theory (IRT) that enables quantitative assessment and comparison of problem-solving abilities of question-answering (QA) agents: humans and AI systems. Through analysis of over 300,000 responses from ~70 AI systems and 155 humans across thousands of quiz questions, CAIMIRA uncovers distinct proficiency patterns in knowledge domains and reasoning skills. Humans outperform AI systems in knowledge-grounded abductive and conceptual reasoning, while state-of-the-art LLMs like GPT-4 and LLaMA show superior performance on targeted information retrieval and fact-based reasoning, particularly when information gaps are well-defined and addressable through pattern matching or data retrieval. These findings highlight the need for future QA tasks to focus on questions that challenge not only higher-order reasoning and scientific thinking, but also demand nuanced linguistic interpretation and cross-contextual knowledge application, helping advance AI developments that better emulate or complement human cognitive abilities in real-world problem-solving.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、テキスト理解や推論といった自然言語処理(NLP)タスクにおいて、AIが人間を上回るという主張につながっている。
本研究では,質問応答論(IRT)に根ざした新しいフレームワークであるCAIMIRAを導入することにより,質問応答(QA)エージェントの問題解決能力の定量的評価と比較を可能にする。
70以上のAIシステムと、何千ものクイズ質問にまたがる155人の人間からの30万以上の応答を分析して、CAIMIRAは知識ドメインと推論スキルの異なる習熟パターンを明らかにした。
GPT-4やLLaMAのような最先端のLLMは、特に情報ギャップがパターンマッチングやデータ検索によって適切に定義され、アドレス化可能である場合に、ターゲットとした情報検索と事実ベースの推論において優れたパフォーマンスを示す。
これらの発見は、高次の推論や科学的思考だけでなく、ニュアンスな言語解釈とコンテキスト横断的な知識アプリケーションを必要とし、現実世界の問題解決において人間の認知能力をよりうまくエミュレートし、補完するAI開発を支援する、今後のQAタスクの必要性を強調している。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事
従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。
大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文 参考訳(メタデータ) (2024-07-11T14:00:53Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Cognition is All You Need -- The Next Layer of AI Above Large Language
Models [0.0]
我々は,大規模言語モデル以外のニューロシンボリック認知のためのフレームワークであるCognitive AIを紹介する。
我々は、認知AIがAGIのようなAI形態の進化に必須の先駆者であり、AGIは独自の確率論的アプローチでは達成できないと主張する。
我々は、大規模言語モデル、AIの採用サイクル、および商用の認知AI開発に関する議論で締めくくります。
論文 参考訳(メタデータ) (2024-03-04T16:11:57Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - MAILS -- Meta AI Literacy Scale: Development and Testing of an AI
Literacy Questionnaire Based on Well-Founded Competency Models and
Psychological Change- and Meta-Competencies [6.368014180870025]
アンケートはモジュラー(すなわち、互いに独立して使用できる異なるファセットを含む)であり、プロフェッショナルな生活に柔軟に適用できるべきである。
我々は、AIリテラシーの異なる側面を表すために、Ngと同僚がAIリテラシーを概念化した60項目を作成した。
AIに関する問題解決、学習、感情制御などの心理的能力を表す12項目が追加されている。
論文 参考訳(メタデータ) (2023-02-18T12:35:55Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Deep Algorithmic Question Answering: Towards a Compositionally Hybrid AI
for Algorithmic Reasoning [0.0]
問題の解答におけるアルゴリズム推論の課題は、AIに対する"システム"アプローチに効果的に取り組むことができる、と我々は主張する。
本稿では,QA,Deep Algorithmic Question Answeringのためのアルゴリズム推論手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T14:28:18Z) - Explainable Artificial Intelligence Approaches: A Survey [0.22940141855172028]
人工知能ベースの「ブラックボックス」システム/モデルからの決定の説明力の欠如は、ハイステークアプリケーションでAIを採用するための重要な障害です。
相互ケーススタディ/タスクにより、一般的なXAI(Explainable Artificial Intelligence)手法を実証します。
競争優位性を多角的に分析します。
我々はXAIを媒体として、責任や人間中心のAIへの道を推奨する。
論文 参考訳(メタデータ) (2021-01-23T06:15:34Z) - Problems in AI research and how the SP System may help to solve them [0.0]
本稿では,AI研究における問題点と,SPシステムがそれらをどのように解決するかについて述べる。
問題のほとんどは、科学作家のMartin Ford氏へのインタビューで、AIの先導的な研究者によって説明されている。
論文 参考訳(メタデータ) (2020-09-02T11:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。