論文の概要: WikiChat: Stopping the Hallucination of Large Language Model Chatbots by
Few-Shot Grounding on Wikipedia
- arxiv url: http://arxiv.org/abs/2305.14292v2
- Date: Fri, 27 Oct 2023 19:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:12:58.632694
- Title: WikiChat: Stopping the Hallucination of Large Language Model Chatbots by
Few-Shot Grounding on Wikipedia
- Title(参考訳): WikiChat: Wikipedia上のFew-Shot Groundingによる大規模言語モデルチャットボットの幻覚を止める
- Authors: Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam
- Abstract要約: 本稿では、ほとんど幻覚を起こさず、会話性が高く、レイテンシも低いLLMベースのチャットボットを初めて紹介する。
WikiChatは英語のウィキペディアをベースとしている。
シミュレーション会話において,最良システムは97.3%の事実精度を達成できることを示す。
- 参考スコア(独自算出の注目度): 3.5267593397833883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the first few-shot LLM-based chatbot that almost never
hallucinates and has high conversationality and low latency. WikiChat is
grounded on the English Wikipedia, the largest curated free-text corpus.
WikiChat generates a response from an LLM, retains only the grounded facts,
and combines them with additional information it retrieves from the corpus to
form factual and engaging responses. We distill WikiChat based on GPT-4 into a
7B-parameter LLaMA model with minimal loss of quality, to significantly improve
its latency, cost and privacy, and facilitate research and deployment.
Using a novel hybrid human-and-LLM evaluation methodology, we show that our
best system achieves 97.3% factual accuracy in simulated conversations. It
significantly outperforms all retrieval-based and LLM-based baselines, and by
3.9%, 38.6% and 51.0% on head, tail and recent knowledge compared to GPT-4.
Compared to previous state-of-the-art retrieval-based chatbots, WikiChat is
also significantly more informative and engaging, just like an LLM.
WikiChat achieves 97.9% factual accuracy in conversations with human users
about recent topics, 55.0% better than GPT-4, while receiving significantly
higher user ratings and more favorable comments.
- Abstract(参考訳): 本稿では,ほとんど幻覚を起こさず,会話性が高く,レイテンシも低いLLMベースのチャットボットについて述べる。
WikiChatは英語のウィキペディアをベースとしている。
WikiChat は LLM から応答を生成し,根拠のある事実のみを保持し,コーパスから取得した追加情報と組み合わせて,現実的かつ活発な応答を形成する。
GPT-4に基づくWikiChatを、7BパラメータのLLaMAモデルに蒸留し、品質の損失を最小限に抑え、そのレイテンシ、コスト、プライバシを大幅に改善し、研究とデプロイメントを容易にする。
新しい人間とllmのハイブリッド評価手法を用いて,シミュレーション会話において,最善のシステムが97.3%の事実的正確性を達成することを示す。
検索ベースとLLMベースのベースラインでは、GPT-4と比較して3.9%、38.6%、最近の知識では51.0%をはるかに上回っている。
従来の最先端の検索ベースのチャットボットと比較すると、WikiChatはLLMと同様、はるかに情報とエンゲージメントがある。
WikiChatは、最近のトピックに関する人間ユーザとの会話において、97.9%の事実精度を達成し、GPT-4よりも55.0%向上した。
関連論文リスト
- WildChat: 1M ChatGPT Interaction Logs in the Wild [88.05964311416717]
WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
論文 参考訳(メタデータ) (2024-05-02T17:00:02Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - Performance of ChatGPT-3.5 and GPT-4 on the United States Medical
Licensing Examination With and Without Distractions [17.813396230160095]
本研究は,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討した。
我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。
ChatGPT-4は、以前の3.5バージョンよりも正確で、小さな講演では、医療勧告を提供する能力が損なわれていないようである。
論文 参考訳(メタデータ) (2023-09-12T05:54:45Z) - ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political
Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。
2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文 参考訳(メタデータ) (2023-04-13T14:51:40Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - TruthBot: An Automated Conversational Tool for Intent Learning, Curated
Information Presenting, and Fake News Alerting [12.95006904081387]
TruthBotは、特定のトピックに関する真理(信頼できる、検証された情報)を求めるように設計されている。
特定のトピックに特有の情報を取得し、ファクトチェック情報を取得し、最新のニュースを得るのに役立つ。
TruthBotは2020年6月にデプロイされ、現在運用中である。
論文 参考訳(メタデータ) (2021-01-31T18:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。