論文の概要: Minimizing Factual Inconsistency and Hallucination in Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.13878v1
- Date: Thu, 23 Nov 2023 09:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:21:17.821152
- Title: Minimizing Factual Inconsistency and Hallucination in Large Language
Models
- Title(参考訳): 大規模言語モデルにおけるFactual UnconsistencyとHalucinationの最小化
- Authors: Muneeswaran I, Shreya Saxena, Siva Prasad, M V Sai Prakash, Advaith
Shankar, Varun V, Vishal Vaddina, Saisubramaniam Gopalakrishnan
- Abstract要約: 大規模言語モデル(LLM)は医療、教育、金融といった重要な分野で広く使われている。
本稿では,まず理性を生成する多段階フレームワークを提案する。
当社のフレームワークは,OpenAI GPT-3.5-turboの信頼性を14~25%向上し,2つのデータセットに対して16~22%向上させることで,従来の検索拡張生成(RAG)を改善する。
- 参考スコア(独自算出の注目度): 0.16417409087671928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used in critical fields such as
healthcare, education, and finance due to their remarkable proficiency in
various language-related tasks. However, LLMs are prone to generating factually
incorrect responses or "hallucinations," which can lead to a loss of
credibility and trust among users. To address this issue, we propose a
multi-stage framework that generates the rationale first, verifies and refines
incorrect ones, and uses them as supporting references to generate the answer.
The generated rationale enhances the transparency of the answer and our
framework provides insights into how the model arrived at this answer, by using
this rationale and the references to the context. In this paper, we demonstrate
its effectiveness in improving the quality of responses to drug-related
inquiries in the life sciences industry. Our framework improves traditional
Retrieval Augmented Generation (RAG) by enabling OpenAI GPT-3.5-turbo to be
14-25% more faithful and 16-22% more accurate on two datasets. Furthermore,
fine-tuning samples based on our framework improves the accuracy of smaller
open-access LLMs by 33-42% and competes with RAG on commercial models.
- Abstract(参考訳): 大規模言語モデル(英語版)(llm)は、様々な言語関連のタスクにおいて顕著な能力があるため、医療、教育、金融といった重要な分野で広く使われている。
しかし、llmは事実的に不正確な応答や「幻覚」を生じやすいため、信頼性とユーザー間の信頼が失われる可能性がある。
この問題に対処するため,我々は,まず根拠を生成し,誤用を検証し,改良し,回答を生成するための参照支援として使用する多段階フレームワークを提案する。
生成された合理性は回答の透明性を高め、私たちのフレームワークは、この合理性とコンテキストへの参照を使用することで、この回答にモデルがどのように到達したかに関する洞察を提供します。
本稿では,生命科学産業における薬物関連質問に対する回答の質の向上に有効であることを示す。
2つのデータセットにおいて,openai gpt-3.5-turboの方が14~25%忠実で16~22%精度が向上し,従来の検索拡張生成(rag)を改善した。
さらに,提案手法に基づく微調整サンプルは,小型オープンアクセスllmの精度を33~42%向上させ,商用モデルのragと競合する。
関連論文リスト
- The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%で上回った。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - DRS: Deep Question Reformulation With Structured Output [114.14122339938697]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。
DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method for enhance to LLMs ability to help users in reformulation Question。
DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善するとともに,Gemma2-9B などのオープンソースモデルの性能を 26.35% から 56.75% に向上させた。
論文 参考訳(メタデータ) (2024-11-27T02:20:44Z) - Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks [13.829525575305206]
本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークについて紹介する。
RaCは質問の修正と対照的な分析を取り入れることでLLMの理解と批判的思考能力を高める。
本稿では,RaC微調整のためのデータセットを効率的に構築するために,高品質な質問応答対を生成するためのGPT支援データマイニング法を開発した。
論文 参考訳(メタデータ) (2024-09-21T16:04:43Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。