論文の概要: WikiChat: A Few-Shot LLM-Based Chatbot Grounded with Wikipedia
- arxiv url: http://arxiv.org/abs/2305.14292v1
- Date: Tue, 23 May 2023 17:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:54:39.530233
- Title: WikiChat: A Few-Shot LLM-Based Chatbot Grounded with Wikipedia
- Title(参考訳): WikiChat:ウィキペディアをベースとしたLLMベースのチャットボット
- Authors: Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam
- Abstract要約: 本稿では,ウィキチャットについて紹介する。これは,ウィキペディアのライブ情報に基づく,数発のLarge Language Modelsベースのチャットボットである。
LLMベースのチャットボットの現実性と会話性を分析するために,新しいハイブリッドヒューマン・アンド・LLM評価手法を提案する。
WikiChatは、その主張の事実的正確性において、すべてのベースラインを上回り、自然な、関連性のない、情報的応答を提供するという点で、GPT-3.5と一致している。
- 参考スコア(独自算出の注目度): 3.701009552634422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in Large Language Models (LLMs), users still cannot
trust the information provided in their responses. LLMs cannot speak accurately
about events that occurred after their training, which are often topics of
great interest to users, and, as we show in this paper, they are highly prone
to hallucination when talking about less popular (tail) topics. This paper
presents WikiChat, a few-shot LLM-based chatbot that is grounded with live
information from Wikipedia. Through many iterations of experimentation, we have
crafte a pipeline based on information retrieval that (1) uses LLMs to suggest
interesting and relevant facts that are individually verified against
Wikipedia, (2) retrieves additional up-to-date information, and (3) composes
coherent and engaging time-aware responses. We propose a novel hybrid
human-and-LLM evaluation methodology to analyze the factuality and
conversationality of LLM-based chatbots. We focus on evaluating important but
previously neglected issues such as conversing about recent and tail topics. We
evaluate WikiChat against strong fine-tuned and LLM-based baselines across a
diverse set of conversation topics. We find that WikiChat outperforms all
baselines in terms of the factual accuracy of its claims, by up to 12.1%, 28.3%
and 32.7% on head, recent and tail topics, while matching GPT-3.5 in terms of
providing natural, relevant, non-repetitive and informational responses.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩にもかかわらず、ユーザは応答で提供される情報を信頼できない。
llmは、トレーニング後に発生した出来事について正確には話せず、ユーザにとって非常に関心のあるトピックであり、本論文で示すように、より人気の低い(テール)トピックについて話すとき、幻覚に陥りやすい。
本稿は、wikipediaのライブ情報を基盤とする、数発のllmベースのチャットボットであるwikichatについて紹介する。
実験の繰り返しを通じて我々は,(1)ウィキペディアに対して個別に検証された興味深い事実をLLMを用いて提案し,(2)最新情報を検索し,(3)一貫性と係り合う応答を構成する,情報検索に基づくパイプラインを構築した。
LLMベースのチャットボットの現実性と会話性を分析するために,新しいハイブリッドヒューマン・アンド・LLM評価手法を提案する。
我々は、最近の話題や末尾に関する議論など、重要で無視された問題を評価することに注力する。
WikiChatは,多種多様な会話トピックに対して,高度に微調整されたLLMベースのベースラインに対して評価する。
WikiChatは、その主張の事実的正確さですべてのベースラインを上回り、12.1%、28.3%、32.7%を頭、最近のトピック、尾のトピックで上回り、GPT-3.5を自然で関係のない、情報的応答でマッチングしている。
関連論文リスト
- WildChat: 1M ChatGPT Interaction Logs in the Wild [88.05964311416717]
WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
論文 参考訳(メタデータ) (2024-05-02T17:00:02Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - Performance of ChatGPT-3.5 and GPT-4 on the United States Medical
Licensing Examination With and Without Distractions [17.813396230160095]
本研究は,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討した。
我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。
ChatGPT-4は、以前の3.5バージョンよりも正確で、小さな講演では、医療勧告を提供する能力が損なわれていないようである。
論文 参考訳(メタデータ) (2023-09-12T05:54:45Z) - ChatGPT-4 Outperforms Experts and Crowd Workers in Annotating Political
Twitter Messages with Zero-Shot Learning [0.0]
本稿では、ツイートの内容に基づいて、Twitterポスターの政治的関連を分類するテキスト分析タスクにおいて、Large Language Model (LLM) ChatGPT-4の精度、信頼性、バイアスを評価する。
2020年の大統領選挙では、米国政治家のTwitterメッセージを使い、正確さを測定するための根拠となる真実を提供します。
論文 参考訳(メタデータ) (2023-04-13T14:51:40Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - TruthBot: An Automated Conversational Tool for Intent Learning, Curated
Information Presenting, and Fake News Alerting [12.95006904081387]
TruthBotは、特定のトピックに関する真理(信頼できる、検証された情報)を求めるように設計されている。
特定のトピックに特有の情報を取得し、ファクトチェック情報を取得し、最新のニュースを得るのに役立つ。
TruthBotは2020年6月にデプロイされ、現在運用中である。
論文 参考訳(メタデータ) (2021-01-31T18:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。