論文の概要: ChatGPT Hallucinates when Attributing Answers
- arxiv url: http://arxiv.org/abs/2309.09401v1
- Date: Sun, 17 Sep 2023 23:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:42:33.658856
- Title: ChatGPT Hallucinates when Attributing Answers
- Title(参考訳): ChatGPTは回答の帰属時に幻覚する
- Authors: Guido Zuccon, Bevan Koopman, Razia Shaik
- Abstract要約: 我々は、異なるプロンプトが答えや証拠にどのように影響するかを調査する。
約半数の症例において,ChatGPTが正解あるいは部分的に正解であることがわかった。
しかし、提案されている基準は14%しか存在しない。
- 参考スコア(独自算出の注目度): 27.63520311803786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can ChatGPT provide evidence to support its answers? Does the evidence it
suggests actually exist and does it really support its answer? We investigate
these questions using a collection of domain-specific knowledge-based
questions, specifically prompting ChatGPT to provide both an answer and
supporting evidence in the form of references to external sources. We also
investigate how different prompts impact answers and evidence. We find that
ChatGPT provides correct or partially correct answers in about half of the
cases (50.6% of the times), but its suggested references only exist 14% of the
times. We further provide insights on the generated references that reveal
common traits among the references that ChatGPT generates, and show how even if
a reference provided by the model does exist, this reference often does not
support the claims ChatGPT attributes to it. Our findings are important because
(1) they are the first systematic analysis of the references created by ChatGPT
in its answers; (2) they suggest that the model may leverage good quality
information in producing correct answers, but is unable to attribute real
evidence to support its answers. Prompts, raw result files and manual analysis
are made publicly available.
- Abstract(参考訳): chatgptはその答えを支持する証拠を提供できるか?
その証拠は実際に存在し、本当にその答えを支持しているのだろうか?
本稿では、これらの質問をドメイン固有の知識に基づく質問の集合を用いて調査し、特にChatGPTに対して、外部ソースへの参照という形で、回答と証拠の両方を提供するよう促す。
また、異なるプロンプトが答えや証拠にどのように影響するかも調べる。
約半数のケース(50.6%)でChatGPTが正しい、あるいは部分的に正しい回答を提供することがわかったが、提案されている基準は14%に過ぎなかった。
さらに、生成された参照について、ChatGPTが生成する参照の共通特性を明らかにし、モデルが提供する参照が存在するとしても、その参照がChatGPTのクレームをサポートしない場合が多いことを示す。
本研究は,(1)ChatGPTが解答において生成した参照を体系的に解析した最初の事例であり,(2)本モデルが正しい解答を生成する際に,良質な情報を活用することができるが,その解答を裏付ける真の証拠を説明できないことを示唆するものである。
プロンプト、生の結果ファイル、手動分析が公開されている。
関連論文リスト
- Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - What has ChatGPT read? The origins of archaeological citations used by a
generative artificial intelligence application [0.0]
本稿は,ChatGPTの訓練段階に含まれると思われる考古学文献を検証した。
ChatGPTは、一見意味のある参照を提供するが、大きなパーセンテージは虚偽であることが証明された。
ChatGPTが提供するすべての参照が本物であることが判明したことも、Wikipediaのページに引用されている。
論文 参考訳(メタデータ) (2023-08-07T05:06:35Z) - CORE-GPT: Combining Open Access research and large language models for
credible, trustworthy question answering [0.6537685198688536]
提案するCORE-GPTは, GPTに基づく言語モデルと, COREからの3200万件以上の全文オープンアクセス科学論文を組み合わせた質問応答プラットフォームである。
まず、GPT3.5とGPT4は、生成されたテキストへの参照や引用を頼りにすることはできないことを実証する。
次に,質問に対するエビデンスに基づく回答を提供するCORE-GPTを紹介する。
論文 参考訳(メタデータ) (2023-07-06T13:41:36Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - Why Does ChatGPT Fall Short in Providing Truthful Answers? [31.656442655938445]
本稿では,ChatGPTのユーザ質問に対する誠実な回答提供における失敗について検討する。
我々は,事実性に関連する2つの重要な能力,すなわち知識記憶と知識記憶を識別する。
本研究は, モデルに詳細な外部知識を付加し, 知識リコールのための手がかりを付加することにより, 質問への回答において, モデルの事実性を高めることができることを示唆する。
論文 参考訳(メタデータ) (2023-04-20T17:48:43Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models [49.52083248451775]
大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
特にChatGPTは,広く利用されており,アクセスしやすいLLMである。
我々は、ChatGPTの常識能力を評価するために、11のデータセットで一連の実験を行った。
論文 参考訳(メタデータ) (2023-03-29T03:05:43Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - REM-Net: Recursive Erasure Memory Network for Commonsense Evidence
Refinement [130.8875535449478]
REM-Netは、答えを説明できない低品質な証拠を消去することで証拠を洗練するためのモジュールを備えている。
既存の知識ベースから証拠を取得する代わりに、REM-Netは事前訓練された生成モデルを利用して、質問用にカスタマイズされた候補証拠を生成する。
結果はREM-Netの性能を示し、洗練された証拠が説明可能であることを示します。
論文 参考訳(メタデータ) (2020-12-24T10:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。