論文の概要: Minimizing Factual Inconsistency and Hallucination in Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.13878v1
- Date: Thu, 23 Nov 2023 09:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:21:17.821152
- Title: Minimizing Factual Inconsistency and Hallucination in Large Language
Models
- Title(参考訳): 大規模言語モデルにおけるFactual UnconsistencyとHalucinationの最小化
- Authors: Muneeswaran I, Shreya Saxena, Siva Prasad, M V Sai Prakash, Advaith
Shankar, Varun V, Vishal Vaddina, Saisubramaniam Gopalakrishnan
- Abstract要約: 大規模言語モデル(LLM)は医療、教育、金融といった重要な分野で広く使われている。
本稿では,まず理性を生成する多段階フレームワークを提案する。
当社のフレームワークは,OpenAI GPT-3.5-turboの信頼性を14~25%向上し,2つのデータセットに対して16~22%向上させることで,従来の検索拡張生成(RAG)を改善する。
- 参考スコア(独自算出の注目度): 0.16417409087671928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used in critical fields such as
healthcare, education, and finance due to their remarkable proficiency in
various language-related tasks. However, LLMs are prone to generating factually
incorrect responses or "hallucinations," which can lead to a loss of
credibility and trust among users. To address this issue, we propose a
multi-stage framework that generates the rationale first, verifies and refines
incorrect ones, and uses them as supporting references to generate the answer.
The generated rationale enhances the transparency of the answer and our
framework provides insights into how the model arrived at this answer, by using
this rationale and the references to the context. In this paper, we demonstrate
its effectiveness in improving the quality of responses to drug-related
inquiries in the life sciences industry. Our framework improves traditional
Retrieval Augmented Generation (RAG) by enabling OpenAI GPT-3.5-turbo to be
14-25% more faithful and 16-22% more accurate on two datasets. Furthermore,
fine-tuning samples based on our framework improves the accuracy of smaller
open-access LLMs by 33-42% and competes with RAG on commercial models.
- Abstract(参考訳): 大規模言語モデル(英語版)(llm)は、様々な言語関連のタスクにおいて顕著な能力があるため、医療、教育、金融といった重要な分野で広く使われている。
しかし、llmは事実的に不正確な応答や「幻覚」を生じやすいため、信頼性とユーザー間の信頼が失われる可能性がある。
この問題に対処するため,我々は,まず根拠を生成し,誤用を検証し,改良し,回答を生成するための参照支援として使用する多段階フレームワークを提案する。
生成された合理性は回答の透明性を高め、私たちのフレームワークは、この合理性とコンテキストへの参照を使用することで、この回答にモデルがどのように到達したかに関する洞察を提供します。
本稿では,生命科学産業における薬物関連質問に対する回答の質の向上に有効であることを示す。
2つのデータセットにおいて,openai gpt-3.5-turboの方が14~25%忠実で16~22%精度が向上し,従来の検索拡張生成(rag)を改善した。
さらに,提案手法に基づく微調整サンプルは,小型オープンアクセスllmの精度を33~42%向上させ,商用モデルのragと競合する。
関連論文リスト
- Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Hallucinations or Attention Misdirection? The Path to Strategic Value
Extraction in Business Using Large Language Models [0.0]
本稿では,真の幻覚というよりも,注意方向のミス指向を定義した。
本稿では,PGI,ペルソナ,グループ,インテリジェンスといった手法のベストプラクティスを紹介する。
論文 参考訳(メタデータ) (2024-02-21T18:40:24Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。