論文の概要: Deficiency of Large Language Models in Finance: An Empirical Examination
of Hallucination
- arxiv url: http://arxiv.org/abs/2311.15548v1
- Date: Mon, 27 Nov 2023 05:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:04:50.067844
- Title: Deficiency of Large Language Models in Finance: An Empirical Examination
of Hallucination
- Title(参考訳): 金融における大規模言語モデルの欠如--幻覚の実証的研究
- Authors: Haoqiang Kang and Xiao-Yang Liu
- Abstract要約: 幻覚は、大きな言語モデル(LLM)の根本的な欠如として認識されている
本稿では, LLMモデルにおける金融概念と用語の説明能力について実験的に検討する。
本研究では,少数ショット学習,コントラスト層(DoLa)による復号化,検索拡張生成(RAG)手法,クエリコマンドを生成する関数のプロンプトベースのツール学習方法など,4つの実践的手法の有効性を評価する。
- 参考スコア(独自算出の注目度): 7.627664978437055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hallucination issue is recognized as a fundamental deficiency of large
language models (LLMs), especially when applied to fields such as finance,
education, and law. Despite the growing concerns, there has been a lack of
empirical investigation. In this paper, we provide an empirical examination of
LLMs' hallucination behaviors in financial tasks. First, we empirically
investigate LLM model's ability of explaining financial concepts and
terminologies. Second, we assess LLM models' capacity of querying historical
stock prices. Third, to alleviate the hallucination issue, we evaluate the
efficacy of four practical methods, including few-shot learning, Decoding by
Contrasting Layers (DoLa), the Retrieval Augmentation Generation (RAG) method
and the prompt-based tool learning method for a function to generate a query
command. Finally, our major finding is that off-the-shelf LLMs experience
serious hallucination behaviors in financial tasks. Therefore, there is an
urgent need to call for research efforts in mitigating LLMs' hallucination.
- Abstract(参考訳): 幻覚問題は、特に金融、教育、法などの分野に適用された場合に、大言語モデル(llm)の根本的な欠陥として認識される。
懸念が高まっているにもかかわらず、実証的な調査が欠如している。
本稿では,金融業務におけるllmsの幻覚行動に関する実証的研究を行う。
まず、LLMモデルが財務概念や用語を説明する能力を実証的に検討する。
第2に,LLMモデルによる歴史的株価の問い合わせ能力を評価する。
第3に、幻覚の問題を緩和するために、少数ショット学習、コントラスト層(DoLa)による復号化、検索拡張生成(RAG)法、クエリコマンドを生成する関数のプロンプトベースのツール学習法を含む4つの実践的手法の有効性を評価する。
最後に、我々の主要な発見は、既成のLLMが金融業務において深刻な幻覚を経験していることである。
そのため、LSMの幻覚を緩和する研究の取り組みを急務に呼び出す必要がある。
関連論文リスト
- Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection [10.54378596443678]
大規模言語モデル(LLM)は高い能力を持つが、リアルタイムアプリケーションではレイテンシの問題に直面している。
本研究では,実効的なプロンプト技術の導入により,実時間で解釈可能な幻覚検出を最適化する。
論文 参考訳(メタデータ) (2024-08-22T22:13:13Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models [12.27217471495276]
大型言語モデル(LLM)における幻覚は、一貫性はあるが事実的に不正確な応答を生成する。
我々は、リアルタイム幻覚検出にLLMの内部状態を活用する教師なしのトレーニングフレームワークであるMINDを提案する。
また,複数のLLMを対象とした幻覚検出のための新しいベンチマークであるHELMを提案する。
論文 参考訳(メタデータ) (2024-03-11T05:51:03Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。
LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。
この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。