論文の概要: ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of
Commonsense Problem in Large Language Models
- arxiv url: http://arxiv.org/abs/2303.16421v2
- Date: Tue, 12 Mar 2024 03:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:25:21.952588
- Title: ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of
Commonsense Problem in Large Language Models
- Title(参考訳): ChatGPTは知識に乏しいが経験不足な解法:大規模言語モデルにおける常識問題の検討
- Authors: Ning Bian, Xianpei Han, Le Sun, Hongyu Lin, Yaojie Lu, Ben He,
Shanshan Jiang, Bin Dong
- Abstract要約: 大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
特にChatGPTは,広く利用されており,アクセスしやすいLLMである。
我々は、ChatGPTの常識能力を評価するために、11のデータセットで一連の実験を行った。
- 参考スコア(独自算出の注目度): 51.65370494855909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant progress in NLP. However,
their ability to memorize, represent, and leverage commonsense knowledge has
been a well-known pain point. In this paper, we specifically focus on ChatGPT,
a widely used and easily accessible LLM, and ask the following questions: (1)
Can ChatGPT effectively answer commonsense questions? (2) Is ChatGPT aware of
the underlying commonsense knowledge for answering a specific question? (3) Is
ChatGPT knowledgeable in commonsense? (4) Can ChatGPT effectively leverage
commonsense for answering questions? We conduct a series of experiments on 11
datasets to evaluate ChatGPT's commonsense abilities, including answering
commonsense questions, identifying necessary knowledge, generating knowledge
descriptions, and using knowledge descriptions to answer questions again.
Experimental results show that: (1) ChatGPT can achieve good QA accuracies in
commonsense tasks, while still struggling with certain domains of datasets. (2)
ChatGPT is knowledgeable, and can accurately generate most of the commonsense
knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an
inexperienced commonsense problem solver, which cannot precisely identify the
needed commonsense for answering a specific question. These findings raise the
need to explore improved mechanisms for effectively incorporating commonsense
into LLMs like ChatGPT, such as better instruction following and commonsense
guidance.
- Abstract(参考訳): 大規模言語モデル(LLM)はNLPにおいて大きな進歩を遂げた。
しかし、常識的な知識を記憶し、表現し、活用する能力はよく知られている。
本稿では,広く利用されており,容易にアクセス可能なLLMであるChatGPTに着目し,(1)ChatGPTが日常的な質問に効果的に答えられるか,という質問を行う。
2) ChatGPTは特定の質問に答える上でのコモンセンス知識を意識しているか?
(3)ChatGPTは常識に通じているか?
(4) ChatGPTは、質問に対するコモンセンスを効果的に活用できるか?
本研究は,ChatGPTのコモンセンス能力を評価するために,11のデータセット上で一連の実験を行い,コモンセンス質問への回答,必要な知識の同定,知識記述の生成,知識記述の活用などを行った。
実験の結果,(1)ChatGPTは,特定のデータセットの領域で苦戦しながら,コモンセンスタスクにおいて良好なQAアキュラシーを達成できることがわかった。
2) ChatGPTは知識があり,知識プロンプトを用いて,常識知識の大部分を正確に生成することができる。
(3) 知識にもかかわらず、ChatGPTは未経験のコモンセンス問題解法であり、特定の質問に答えるために必要なコモンセンスを正確に識別することができない。
これらの知見は、ChatGPTのようなLLMにコモンセンスを効果的に組み込むための改善されたメカニズムを探求する必要性を提起する。
関連論文リスト
- Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - An empirical study of ChatGPT-3.5 on question answering and code
maintenance [14.028497274245227]
ChatGPTがプログラマを置き換え、ジョブを廃止するかどうかという懸念が高まっている。
そこで我々は,ChatGPTとプログラマの質問応答とソフトウェア保守を系統的に比較するための実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-03T14:48:32Z) - Performance of ChatGPT on USMLE: Unlocking the Potential of Large
Language Models for AI-Assisted Medical Education [0.0]
本研究は,ChatGPTが複雑な医学的および臨床的な疑問に答える上で,いかに信頼性が高いかを検討した。
本研究は2方向ANOVAとポストホック解析を用いて得られた結果について検討した。
ChatGPTによる回答は、通常のGoogle検索結果よりもコンテキスト指向であることが判明した。
論文 参考訳(メタデータ) (2023-06-30T19:53:23Z) - ChatGPT: A Study on its Utility for Ubiquitous Software Engineering
Tasks [2.084078990567849]
ChatGPT (Chat Generative Pre-trained Transformer) - OpenAIが2022年11月30日に立ち上げた。
本研究では,ChatGPTが一般的なソフトウェアエンジニアリングタスクにどのように役立つかを検討する。
論文 参考訳(メタデータ) (2023-05-26T11:29:06Z) - Transformative Effects of ChatGPT on Modern Education: Emerging Era of
AI Chatbots [36.760677949631514]
ChatGPTは、大量のデータの分析に基づいて、一貫性と有用な応答を提供するためにリリースされた。
予備評価の結果,ChatGPTは財務,コーディング,数学など各分野において異なる性能を示した。
不正確なデータや偽データを生成する可能性など、その使用には明らかな欠点がある。
ChatGPTを教育のツールとして使用すれば、学術的規制と評価のプラクティスを更新する必要がある。
論文 参考訳(メタデータ) (2023-05-25T17:35:57Z) - Why Does ChatGPT Fall Short in Providing Truthful Answers? [31.656442655938445]
本稿では,ChatGPTのユーザ質問に対する誠実な回答提供における失敗について検討する。
我々は,事実性に関連する2つの重要な能力,すなわち知識記憶と知識記憶を識別する。
本研究は, モデルに詳細な外部知識を付加し, 知識リコールのための手がかりを付加することにより, 質問への回答において, モデルの事実性を高めることができることを示唆する。
論文 参考訳(メタデータ) (2023-04-20T17:48:43Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - CIKQA: Learning Commonsense Inference with a Unified
Knowledge-in-the-loop QA Paradigm [120.98789964518562]
我々は,コモンセンス知識の大規模化により,すべてのコモンセンスをカバーできるような,各タスクに十分なトレーニングセットをアノテートすることは不可能である,と論じる。
モデルのコモンセンス推論能力について,2つの観点から検討する。
我々は、このベンチマークを知識-イン-ループ質問回答(CIKQA)を用いたCommonsense Inferenceと命名した。
論文 参考訳(メタデータ) (2022-10-12T14:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。