論文の概要: Improving the Reliability of LLMs: Combining CoT, RAG, Self-Consistency, and Self-Verification
- arxiv url: http://arxiv.org/abs/2505.09031v1
- Date: Tue, 13 May 2025 23:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.330163
- Title: Improving the Reliability of LLMs: Combining CoT, RAG, Self-Consistency, and Self-Verification
- Title(参考訳): CoT, RAG, 自己整合性, 自己検証を組み合わせたLCMの信頼性向上
- Authors: Adarsh Kumar, Hwiyoon Kim, Jawahar Sai Nathani, Neil Roy,
- Abstract要約: 大規模言語モデル(LLM)は、自信はあるが不正確または無関係な情報を生成する。
幻覚は、複雑でオープンなタスクへの応用において重要な限界である。
本研究では,CoT(Chain-of- Thought)とRAG(Research-augmented Generation)を組み合わせることで幻覚を抑える方法について検討する。
- 参考スコア(独自算出の注目度): 1.5095869543963976
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Hallucination, where large language models (LLMs) generate confident but incorrect or irrelevant information, remains a key limitation in their application to complex, open-ended tasks. Chain-of-thought (CoT) prompting has emerged as a promising method for improving multistep reasoning by guiding models through intermediate steps. However, CoT alone does not fully address the hallucination problem. In this work, we investigate how combining CoT with retrieval-augmented generation (RAG), as well as applying self-consistency and self-verification strategies, can reduce hallucinations and improve factual accuracy. By incorporating external knowledge sources during reasoning and enabling models to verify or revise their own outputs, we aim to generate more accurate and coherent responses. We present a comparative evaluation of baseline LLMs against CoT, CoT+RAG, self-consistency, and self-verification techniques. Our results highlight the effectiveness of each method and identify the most robust approach for minimizing hallucinations while preserving fluency and reasoning depth.
- Abstract(参考訳): 大型言語モデル(LLM)が自信を生んでいるが、不正確あるいは無関係な情報を生成する幻覚は、複雑でオープンなタスクへの応用において重要な限界である。
CoT(Chain-of- Thought)プロンプトは、中間ステップを通じてモデルを導くことで多段階推論を改善するための有望な方法として登場した。
しかし、CoTだけでは幻覚の問題を完全に解決していない。
本研究では,CoTと検索強化世代(RAG)を組み合わせるとともに,自己整合性と自己検証戦略を適用し,幻覚を低減し,事実の精度を向上させる方法について検討する。
推論中に外部知識ソースを取り入れ、モデルが自身のアウトプットを検証または修正できるようにすることで、より正確で一貫性のある応答を生成することを目指している。
本稿では,CoT,CoT+RAG,自己整合性,自己検証技術に対するベースラインLCMの比較評価を行った。
本研究は, 各手法の有効性を強調し, 発覚度を最小化しつつ, 発覚度や推論深度を抑えるための最も堅牢なアプローチを同定するものである。
関連論文リスト
- Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models [2.98260857963929]
大規模言語モデル(LLM)は、ユーザの信頼を損なう可能性のある非実効的なアウトプットを幻覚し、生成することが知られている。
表現編集やコントラスト復号といった幻覚を直接緩和する従来の手法は、しばしば追加のトレーニングデータを必要とし、実装の複雑さを伴います。
本研究では,その精度と自己評価能力に基づいて,複数のLSMを戦略的に組み合わせて幻覚を低減するためのアンサンブルフレームワークであるUncertainty-Aware Fusion (UAF)を提案する。
論文 参考訳(メタデータ) (2025-02-22T10:48:18Z) - Verify when Uncertain: Beyond Self-Consistency in Black Box Hallucination Detection [25.176984317213858]
大型言語モデル(LLM)は幻覚に悩まされ、センシティブなアプリケーションにおける信頼性を損なう。
本稿では,検証モデルを一部のケースに対してのみ呼び出す,予算に優しい2段階検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-20T21:06:08Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。