論文の概要: ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of
Commonsense Problem in Large Language Models
- arxiv url: http://arxiv.org/abs/2303.16421v1
- Date: Wed, 29 Mar 2023 03:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 16:15:05.515165
- Title: ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of
Commonsense Problem in Large Language Models
- Title(参考訳): ChatGPTは知識に乏しいが経験不足な解法:大規模言語モデルにおける常識問題の検討
- Authors: Ning Bian, Xianpei Han, Le Sun, Hongyu Lin, Yaojie Lu, Ben He
- Abstract要約: 大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
GPTはコモンセンスな質問に効果的に答えられるか?
GPTは常識に通じているか?
GPTは質問への回答にコモンセンスを効果的に活用できるのか?
- 参考スコア(独自算出の注目度): 41.0118768758875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) such as ChatGPT and GPT-4 have made significant
progress in NLP. However, their ability to memorize, represent, and leverage
commonsense knowledge has been a well-known pain point for LLMs. It remains
unclear that: (1) Can GPTs effectively answer commonsense questions? (2) Are
GPTs knowledgeable in commonsense? (3) Are GPTs aware of the underlying
commonsense knowledge for answering a specific question? (4) Can GPTs
effectively leverage commonsense for answering questions? To evaluate the above
commonsense problems, we conduct a series of experiments to evaluate ChatGPT's
commonsense abilities, and the experimental results show that: (1) GPTs can
achieve good QA accuracy in commonsense tasks, while they still struggle with
certain types of knowledge. (2) ChatGPT is knowledgeable, and can accurately
generate most of the commonsense knowledge using knowledge prompts. (3) Despite
its knowledge, ChatGPT is an inexperienced commonsense problem solver, which
cannot precisely identify the needed commonsense knowledge for answering a
specific question, i.e., ChatGPT does not precisely know what commonsense
knowledge is required to answer a question. The above findings raise the need
to investigate better mechanisms for utilizing commonsense knowledge in LLMs,
such as instruction following, better commonsense guidance, etc.
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
しかし、コモンセンス知識を記憶し、表現し、活用する能力は、LLMにとってよく知られた問題点である。
1)GPTはコモンセンスな質問に効果的に答えられるか?
2)GPTは常識に通じているか?
(3)GPTは特定の疑問に答える上でのコモンセンス知識を意識しているか?
(4) GPTは、質問に対するコモンセンスを効果的に活用できるか?
以上のコモンセンス問題を評価するために,我々はChatGPTのコモンセンス能力を評価する一連の実験を行い,実験結果から,(1)GPTはある種の知識に苦慮しながら,コモンセンスタスクにおいて良好なQA精度を達成できることを示した。
2) ChatGPTは知識があり,知識プロンプトを用いて,常識知識の大部分を正確に生成することができる。
(3) 知識にもかかわらず、ChatGPTは未経験のコモンセンス問題解決器であり、特定の質問に答えるために必要なコモンセンス知識を正確に識別することはできない。
以上より,llmにおけるコモンセンス知識の活用メカニズム,例えば命令追従,コモンセンス指導などについて検討する必要性が示唆された。
関連論文リスト
- Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - An empirical study of ChatGPT-3.5 on question answering and code
maintenance [14.028497274245227]
ChatGPTがプログラマを置き換え、ジョブを廃止するかどうかという懸念が高まっている。
そこで我々は,ChatGPTとプログラマの質問応答とソフトウェア保守を系統的に比較するための実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-03T14:48:32Z) - Performance of ChatGPT on USMLE: Unlocking the Potential of Large
Language Models for AI-Assisted Medical Education [0.0]
本研究は,ChatGPTが複雑な医学的および臨床的な疑問に答える上で,いかに信頼性が高いかを検討した。
本研究は2方向ANOVAとポストホック解析を用いて得られた結果について検討した。
ChatGPTによる回答は、通常のGoogle検索結果よりもコンテキスト指向であることが判明した。
論文 参考訳(メタデータ) (2023-06-30T19:53:23Z) - ChatGPT: A Study on its Utility for Ubiquitous Software Engineering
Tasks [2.084078990567849]
ChatGPT (Chat Generative Pre-trained Transformer) - OpenAIが2022年11月30日に立ち上げた。
本研究では,ChatGPTが一般的なソフトウェアエンジニアリングタスクにどのように役立つかを検討する。
論文 参考訳(メタデータ) (2023-05-26T11:29:06Z) - Transformative Effects of ChatGPT on Modern Education: Emerging Era of
AI Chatbots [36.760677949631514]
ChatGPTは、大量のデータの分析に基づいて、一貫性と有用な応答を提供するためにリリースされた。
予備評価の結果,ChatGPTは財務,コーディング,数学など各分野において異なる性能を示した。
不正確なデータや偽データを生成する可能性など、その使用には明らかな欠点がある。
ChatGPTを教育のツールとして使用すれば、学術的規制と評価のプラクティスを更新する必要がある。
論文 参考訳(メタデータ) (2023-05-25T17:35:57Z) - Why Does ChatGPT Fall Short in Providing Truthful Answers? [31.656442655938445]
本稿では,ChatGPTのユーザ質問に対する誠実な回答提供における失敗について検討する。
我々は,事実性に関連する2つの重要な能力,すなわち知識記憶と知識記憶を識別する。
本研究は, モデルに詳細な外部知識を付加し, 知識リコールのための手がかりを付加することにより, 質問への回答において, モデルの事実性を高めることができることを示唆する。
論文 参考訳(メタデータ) (2023-04-20T17:48:43Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - CIKQA: Learning Commonsense Inference with a Unified
Knowledge-in-the-loop QA Paradigm [120.98789964518562]
我々は,コモンセンス知識の大規模化により,すべてのコモンセンスをカバーできるような,各タスクに十分なトレーニングセットをアノテートすることは不可能である,と論じる。
モデルのコモンセンス推論能力について,2つの観点から検討する。
我々は、このベンチマークを知識-イン-ループ質問回答(CIKQA)を用いたCommonsense Inferenceと命名した。
論文 参考訳(メタデータ) (2022-10-12T14:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。