論文の概要: Can we Trust Chatbots for now? Accuracy, reproducibility, traceability;
a Case Study on Leonardo da Vinci's Contribution to Astronomy
- arxiv url: http://arxiv.org/abs/2304.11852v1
- Date: Mon, 24 Apr 2023 06:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:57:54.761995
- Title: Can we Trust Chatbots for now? Accuracy, reproducibility, traceability;
a Case Study on Leonardo da Vinci's Contribution to Astronomy
- Title(参考訳): チャットボットは信用できますか?
正確性,再現性,トレーサビリティ : レオナルド・ダ・ヴィンチの天文学への貢献を事例として
- Authors: Didier El Baz (LAAS-CDA)
- Abstract要約: ChatGPT, GPT-4, BLOOM, Google Bardでは, 解の精度とトレーサビリティに関する大きな問題が報告されている。
レオナルドの天文学への貢献に関するケーススタディが提示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLM) are studied. Applications to chatbots and
education are considered. A case study on Leonardo's contribution to astronomy
is presented. Major problems with accuracy, reproducibility and traceability of
answers are reported for ChatGPT, GPT-4, BLOOM and Google Bard. Possible
reasons for problems are discussed and some solutions are proposed.
- Abstract(参考訳): 大規模言語モデル(LLM)が研究されている。
チャットボットや教育への応用も検討されている。
レオナルドの天文学への貢献に関するケーススタディが提示されている。
ChatGPT, GPT-4, BLOOM, Google Bardの精度, 再現性, トレーサビリティに関する大きな問題が報告されている。
問題の原因が議論され、いくつかの解決策が提案されている。
関連論文リスト
- Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling [80.64715784334936]
ボードゲーム「バトルシップ」に基づく古典的根拠付き質問応答課題におけるトレードオフについて検討する。
我々のモデルは,大規模言語モデル(LLM)を用いて自然言語の質問を生成し,それらを記号型プログラムに変換し,期待される情報取得を評価する。
驚くほど控えめなリソース予算で、このシンプルなモンテカルロ最適化戦略は、人間のパフォーマンスを反映する有意義な質問をもたらす。
論文 参考訳(メタデータ) (2024-02-29T18:58:15Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - ChatGPT and Bard Responses to Polarizing Questions [9.845338348278338]
私たちはChatGPTとBardレスポンスのデータセットを作成し、記述しました。
その結果,ChatGPTとBardのいずれにおいても左利きバイアスが認められた。
バードは論争を巻き起こす話題に対するガードレールが少なかったようで、より包括的で人間らしい反応を提供したいと願うように見えた。
論文 参考訳(メタデータ) (2023-07-13T14:45:47Z) - Adding guardrails to advanced chatbots [5.203329540700177]
2022年11月にChatGPTがローンチされ、AIの新しい時代が到来した。
さまざまな仕事のために、人間がチャットボットに取って代わられるのではないか、という懸念はすでにある。
これらのバイアスは、異なるサブポピュレーションに対して重大な害および/または不平等を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-06-13T02:23:04Z) - Chatbots put to the test in math and logic problems: A preliminary
comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard [68.8204255655161]
曖昧さがなく、プレーンテキストのみで完全に記述され、ユニークな、明確に定義された正しい回答を持つ、30の質問を使用します。
回答は記録され、議論され、その強みと弱点を強調します。
その結果,ChatGPT-4はChatGPT-3.5より優れていた。
論文 参考訳(メタデータ) (2023-05-30T11:18:05Z) - Transformative Effects of ChatGPT on Modern Education: Emerging Era of
AI Chatbots [36.760677949631514]
ChatGPTは、大量のデータの分析に基づいて、一貫性と有用な応答を提供するためにリリースされた。
予備評価の結果,ChatGPTは財務,コーディング,数学など各分野において異なる性能を示した。
不正確なデータや偽データを生成する可能性など、その使用には明らかな欠点がある。
ChatGPTを教育のツールとして使用すれば、学術的規制と評価のプラクティスを更新する必要がある。
論文 参考訳(メタデータ) (2023-05-25T17:35:57Z) - ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models [49.52083248451775]
大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
特にChatGPTは,広く利用されており,アクセスしやすいLLMである。
我々は、ChatGPTの常識能力を評価するために、11のデータセットで一連の実験を行った。
論文 参考訳(メタデータ) (2023-03-29T03:05:43Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。