論文の概要: Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.19385v1
- Date: Fri, 25 Oct 2024 08:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:58.224679
- Title: Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models
- Title(参考訳): 大規模言語モデルの幻覚率におけるプロンプトと外部ツールの役割の検討
- Authors: Liam Barkley, Brink van der Merwe,
- Abstract要約: LLM(Large Language Models)は、人間の可読テキストの広範なコーパスに基づいて訓練された強力な計算モデルであり、汎用的な言語理解と生成を可能にする。
これらの成功にもかかわらず、LLMは幻覚と呼ばれる不正確さをしばしば生み出す。
本稿では,LLMにおける幻覚の低減を目的とした,異なるプロンプト戦略とフレームワークの実証評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) are powerful computational models trained on extensive corpora of human-readable text, enabling them to perform general-purpose language understanding and generation. LLMs have garnered significant attention in both industry and academia due to their exceptional performance across various natural language processing (NLP) tasks. Despite these successes, LLMs often produce inaccuracies, commonly referred to as hallucinations. Prompt engineering, the process of designing and formulating instructions for LLMs to perform specific tasks, has emerged as a key approach to mitigating hallucinations. This paper provides a comprehensive empirical evaluation of different prompting strategies and frameworks aimed at reducing hallucinations in LLMs. Various prompting techniques are applied to a broad set of benchmark datasets to assess the accuracy and hallucination rate of each method. Additionally, the paper investigates the influence of tool-calling agents (LLMs augmented with external tools to enhance their capabilities beyond language generation) on hallucination rates in the same benchmarks. The findings demonstrate that the optimal prompting technique depends on the type of problem, and that simpler techniques often outperform more complex methods in reducing hallucinations. Furthermore, it is shown that LLM agents can exhibit significantly higher hallucination rates due to the added complexity of external tool usage.
- Abstract(参考訳): LLM(Large Language Models)は、人間の可読テキストの広範なコーパスに基づいて訓練された強力な計算モデルであり、汎用的な言語理解と生成を可能にする。
LLMは、様々な自然言語処理(NLP)タスクにまたがる例外的なパフォーマンスのために、業界と学界の両方で大きな注目を集めている。
これらの成功にもかかわらず、LLMは幻覚と呼ばれる不正確さをしばしば生み出す。
LLMが特定のタスクを実行するための命令を設計・定式化するプロセスであるPrompt Engineeringが幻覚を緩和するための重要なアプローチとして登場した。
本稿では,LLMにおける幻覚の低減を目的とした,異なるプロンプト戦略とフレームワークの総合的評価を行う。
各手法の精度と幻覚率を評価するため、幅広いベンチマークデータセットに様々なプロンプト技術を適用した。
さらに,ツールコールエージェント(LLM)が同一ベンチマークにおける幻覚率に及ぼす影響について検討した。
これらの結果から、最適なプロンプト技術は問題の種類に依存し、より単純な手法は幻覚を減らすためにより複雑な手法より優れていることが示唆された。
さらに, 外部ツールの使用が複雑化することにより, LLM剤の幻覚効果が著しく向上することが示唆された。
関連論文リスト
- Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。
新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-14T18:55:26Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models [12.27217471495276]
大型言語モデル(LLM)における幻覚は、一貫性はあるが事実的に不正確な応答を生成する。
我々は、リアルタイム幻覚検出にLLMの内部状態を活用する教師なしのトレーニングフレームワークであるMINDを提案する。
また,複数のLLMを対象とした幻覚検出のための新しいベンチマークであるHELMを提案する。
論文 参考訳(メタデータ) (2024-03-11T05:51:03Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - A Comprehensive Survey of Hallucination Mitigation Techniques in Large
Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。
重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。
本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文 参考訳(メタデータ) (2024-01-02T17:56:30Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。