Fugu-MT 論文翻訳(概要): Deficiency of Large Language Models in Finance: An Empirical Examination of Hallucination

論文の概要: Deficiency of Large Language Models in Finance: An Empirical Examination of Hallucination

arxiv url: http://arxiv.org/abs/2311.15548v1
Date: Mon, 27 Nov 2023 05:27:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 17:04:50.067844
Title: Deficiency of Large Language Models in Finance: An Empirical Examination of Hallucination
Title（参考訳）: 金融における大規模言語モデルの欠如--幻覚の実証的研究
Authors: Haoqiang Kang and Xiao-Yang Liu
Abstract要約: 幻覚は、大きな言語モデル(LLM)の根本的な欠如として認識されている本稿では, LLMモデルにおける金融概念と用語の説明能力について実験的に検討する。本研究では,少数ショット学習,コントラスト層(DoLa)による復号化,検索拡張生成(RAG)手法,クエリコマンドを生成する関数のプロンプトベースのツール学習方法など,4つの実践的手法の有効性を評価する。
参考スコア（独自算出の注目度）: 7.627664978437055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The hallucination issue is recognized as a fundamental deficiency of large language models (LLMs), especially when applied to fields such as finance, education, and law. Despite the growing concerns, there has been a lack of empirical investigation. In this paper, we provide an empirical examination of LLMs' hallucination behaviors in financial tasks. First, we empirically investigate LLM model's ability of explaining financial concepts and terminologies. Second, we assess LLM models' capacity of querying historical stock prices. Third, to alleviate the hallucination issue, we evaluate the efficacy of four practical methods, including few-shot learning, Decoding by Contrasting Layers (DoLa), the Retrieval Augmentation Generation (RAG) method and the prompt-based tool learning method for a function to generate a query command. Finally, our major finding is that off-the-shelf LLMs experience serious hallucination behaviors in financial tasks. Therefore, there is an urgent need to call for research efforts in mitigating LLMs' hallucination.
Abstract（参考訳）: 幻覚問題は、特に金融、教育、法などの分野に適用された場合に、大言語モデル(llm)の根本的な欠陥として認識される。懸念が高まっているにもかかわらず、実証的な調査が欠如している。本稿では,金融業務におけるllmsの幻覚行動に関する実証的研究を行う。まず、LLMモデルが財務概念や用語を説明する能力を実証的に検討する。第2に,LLMモデルによる歴史的株価の問い合わせ能力を評価する。第3に、幻覚の問題を緩和するために、少数ショット学習、コントラスト層(DoLa)による復号化、検索拡張生成(RAG)法、クエリコマンドを生成する関数のプロンプトベースのツール学習法を含む4つの実践的手法の有効性を評価する。最後に、我々の主要な発見は、既成のLLMが金融業務において深刻な幻覚を経験していることである。そのため、LSMの幻覚を緩和する研究の取り組みを急務に呼び出す必要がある。

関連論文リスト

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL) 本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文参考訳（メタデータ） (2024-10-16T00:15:40Z)
SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection [10.54378596443678]
大規模言語モデル(LLM)は高い能力を持つが、リアルタイムアプリケーションではレイテンシの問題に直面している。本研究では,実効的なプロンプト技術の導入により,実時間で解釈可能な幻覚検出を最適化する。
論文参考訳（メタデータ） (2024-08-22T22:13:13Z)
LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文参考訳（メタデータ） (2024-07-03T17:08:52Z)
Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models [12.27217471495276]
大型言語モデル(LLM)における幻覚は、一貫性はあるが事実的に不正確な応答を生成する。我々は、リアルタイム幻覚検出にLLMの内部状態を活用する教師なしのトレーニングフレームワークであるMINDを提案する。また,複数のLLMを対象とした幻覚検出のための新しいベンチマークであるHELMを提案する。
論文参考訳（メタデータ） (2024-03-11T05:51:03Z)
Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文参考訳（メタデータ） (2024-03-06T09:06:34Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文参考訳（メタデータ） (2024-01-06T12:40:45Z)
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。 MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文参考訳（メタデータ） (2023-11-13T15:25:42Z)
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。 LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文参考訳（メタデータ） (2023-11-09T09:25:37Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。