論文の概要: Chain-of-Verification Reduces Hallucination in Large Language Models
- arxiv url: http://arxiv.org/abs/2309.11495v1
- Date: Wed, 20 Sep 2023 17:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:27:09.714269
- Title: Chain-of-Verification Reduces Hallucination in Large Language Models
- Title(参考訳): 検証の連鎖は大規模言語モデルにおける幻覚を減少させる
- Authors: Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian
Li, Asli Celikyilmaz, Jason Weston
- Abstract要約: 言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。
モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。
ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
- 参考スコア(独自算出の注目度): 80.99318041981776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generation of plausible yet incorrect factual information, termed
hallucination, is an unsolved issue in large language models. We study the
ability of language models to deliberate on the responses they give in order to
correct their mistakes. We develop the Chain-of-Verification (CoVe) method
whereby the model first (i) drafts an initial response; then (ii) plans
verification questions to fact-check its draft; (iii) answers those questions
independently so the answers are not biased by other responses; and (iv)
generates its final verified response. In experiments, we show CoVe decreases
hallucinations across a variety of tasks, from list-based questions from
Wikidata, closed book MultiSpanQA and longform text generation.
- Abstract(参考訳): 幻覚と呼ばれる、確実で誤った事実情報の生成は、大きな言語モデルでは未解決の問題である。
言語モデルが、その誤りを正すために与えた応答を熟考する能力について検討する。
モデルはまず,チェイン・オブ・バリデーション(CoVe)法を開発する。
(i)初期応答を起草し、次に
(ii) 原案を事実確認するために検証質問を計画する
(iii) 回答が他の回答に偏らないよう、それぞれ独立して回答する。
(iv)最終確認応答を生成する。
実験では、wikidataからリストベースの質問、クローズドブックのmultispanqa、longformテキスト生成など、さまざまなタスクにわたる幻覚の減少を示す。
関連論文リスト
- A Unified Hallucination Mitigation Framework for Large Vision-Language Models [18.595958586621943]
幻覚緩和のための統一的な枠組みであるデンティストを提示する。
中心となるステップは、まずクエリを分類し、次に分類結果に基づいて幻覚緩和の異なるプロセスを実行することである。
MMbenchでは、画像品質の精度が13.44%/10.2%/15.8%向上した。
論文 参考訳(メタデータ) (2024-09-24T22:36:58Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Ever: Mitigating Hallucination in Large Language Models through
Real-Time Verification and Rectification [18.59695929601458]
リアルタイム検証(Real-time Verification and Rectification)と呼ばれる新しいアプローチを導入する。
エバーは、リアルタイムでステップワイズな生成と幻覚の修正戦略を採用しています。
さまざまなタスクにまたがって、信頼できる、事実的に正確なテキストを生成することにおいて、大きな改善が示されています。
論文 参考訳(メタデータ) (2023-11-15T17:04:56Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - CLAM: Selective Clarification for Ambiguous Questions with Large
Language Models [37.37606905433334]
我々は,現在の SotA モデルでは,不正確な質問を提示しても,ユーザに対して明確化を求めないことを示す。
CLAMは,まずモデルを用いて曖昧な質問を検知し,不明瞭な質問が検出された場合,ユーザに対して明確化を求める。
本研究では,新しいあいまいな質問応答データセットを用いて,SotAに対して20.15パーセントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2022-12-15T12:47:18Z) - Read before Generate! Faithful Long Form Question Answering with Machine
Reading [77.17898499652306]
LFQA(Long-form Question answering)は、ある質問に対する段落長の回答を生成することを目的としている。
生成と機械読取を協調的にモデル化する新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-01T10:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。