論文の概要: From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI
- arxiv url: http://arxiv.org/abs/2407.03778v1
- Date: Thu, 4 Jul 2024 09:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:42:12.531913
- Title: From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI
- Title(参考訳): データから常識推論へ - 説明可能なAIのための大規模言語モデルの利用
- Authors: Stefanie Krause, Frieder Stolzenburg,
- Abstract要約: 本研究では,大規模言語モデル(LLM)の有効性について検討した。
モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。
回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense reasoning is a difficult task for a computer, but a critical skill for an artificial intelligence (AI). It can enhance the explainability of AI models by enabling them to provide intuitive and human-like explanations for their decisions. This is necessary in many areas especially in question answering (QA), which is one of the most important tasks of natural language processing (NLP). Over time, a multitude of methods have emerged for solving commonsense reasoning problems such as knowledge-based approaches using formal logic or linguistic analysis. In this paper, we investigate the effectiveness of large language models (LLMs) on different QA tasks with a focus on their abilities in reasoning and explainability. We study three LLMs: GPT-3.5, Gemma and Llama 3. We further evaluate the LLM results by means of a questionnaire. We demonstrate the ability of LLMs to reason with commonsense as the models outperform humans on different datasets. While GPT-3.5's accuracy ranges from 56% to 93% on various QA benchmarks, Llama 3 achieved a mean accuracy of 90% on all eleven datasets. Thereby Llama 3 is outperforming humans on all datasets with an average 21% higher accuracy over ten datasets. Furthermore, we can appraise that, in the sense of explainable artificial intelligence (XAI), GPT-3.5 provides good explanations for its decisions. Our questionnaire revealed that 66% of participants rated GPT-3.5's explanations as either "good" or "excellent". Taken together, these findings enrich our understanding of current LLMs and pave the way for future investigations of reasoning and explainability.
- Abstract(参考訳): 常識推論はコンピュータにとって難しい課題であるが、人工知能(AI)にとって重要なスキルである。
決定に対して直感的で人間的な説明を提供することで、AIモデルの説明可能性を高めることができる。
これは、自然言語処理(NLP)において最も重要なタスクの1つである質問応答(QA)において、特に多くの分野において必要である。
時間とともに、形式論理や言語分析を用いた知識に基づくアプローチのような、常識的推論問題を解くための多くの方法が出現してきた。
本稿では,大規模言語モデル(LLM)が様々なQAタスクに与える影響について考察する。
GPT-3.5, Gemma, Llama 3の3つのLCMについて検討した。
さらに,LCMの結果をアンケートにより評価した。
モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。
GPT-3.5の精度は、様々なQAベンチマークで56%から93%の範囲であるが、Llama 3は11のデータセットで平均90%の精度を達成した。
これにより、Llama 3は10データセットよりも平均21%高い精度で、すべてのデータセットで人間を上回っている。
さらに、説明可能な人工知能(XAI)という意味では、GPT-3.5はその決定によい説明を提供すると評価できる。
回答者の66%がGPT-3.5の説明を「良い」あるいは「優れている」と評価した。
これらの知見を総合して、現在のLSMの理解を深め、推論と説明可能性に関する今後の研究の道を開く。
関連論文リスト
- LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - CAUS: A Dataset for Question Generation based on Human Cognition Leveraging Large Language Models [4.962252439662465]
本稿では,Curious About Uncertain Sceneデータセットを導入し,大規模言語モデルを用いて人間の認知過程をエミュレートし,不確実性を解決する。
我々のアプローチは、推論とクエリの生成を刺激するために、不確実性に埋め込まれたシーン記述を提供することである。
以上の結果から, GPT-4は, 適切な文脈や指示が与えられた場合に, 適切な質問を効果的に生成し, そのニュアンスを把握できることが示唆された。
論文 参考訳(メタデータ) (2024-04-18T01:31:19Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - XplainLLM: A QA Explanation Dataset for Understanding LLM
Decision-Making [13.928951741632815]
大規模言語モデル(LLM)は、最近、自然言語理解タスクにおいて顕著な進歩を遂げた。
本稿では、新しい説明データセットを導入することにより、このプロセスに透明性をもたらすことを検討する。
我々のデータセットには12,102のQAEトリプルが含まれている。
論文 参考訳(メタデータ) (2023-11-15T00:34:28Z) - AGIBench: A Multi-granularity, Multimodal, Human-referenced,
Auto-scoring Benchmark for Large Language Models [3.518832148294879]
ChatGPTのような大規模言語モデルの問題解決能力を評価する方法はホットスポットだが難しい問題だ。
本稿では,LLMのマルチグラニュラ性,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:43:37Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - On Explainability in AI-Solutions: A Cross-Domain Survey [4.394025678691688]
システムモデルを自動的に導出する際、AIアルゴリズムは人間には検出できないデータで関係を学習する。
モデルが複雑になればなるほど、人間が意思決定の理由を理解するのが難しくなる。
この研究は、この話題に関する広範な文献調査を提供し、その大部分は、他の調査から成っている。
論文 参考訳(メタデータ) (2022-10-11T06:21:47Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。