論文の概要: Evaluating the Accuracy of Chatbots in Financial Literature
- arxiv url: http://arxiv.org/abs/2411.07031v1
- Date: Mon, 11 Nov 2024 14:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:42.188812
- Title: Evaluating the Accuracy of Chatbots in Financial Literature
- Title(参考訳): 金融文献におけるチャットボットの精度評価
- Authors: Orhan Erdem, Kristi Hassett, Feyzullah Egriboyun,
- Abstract要約: 2つのチャットボットであるChatGPT(4oおよびo1-previewバージョン)とGemini Advancedの信頼性を評価する。
本研究は,幻覚率とトピックの最近の変化を評価するために,非バイナリアプローチと回帰尺度を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We evaluate the reliability of two chatbots, ChatGPT (4o and o1-preview versions), and Gemini Advanced, in providing references on financial literature and employing novel methodologies. Alongside the conventional binary approach commonly used in the literature, we developed a nonbinary approach and a recency measure to assess how hallucination rates vary with how recent a topic is. After analyzing 150 citations, ChatGPT-4o had a hallucination rate of 20.0% (95% CI, 13.6%-26.4%), while the o1-preview had a hallucination rate of 21.3% (95% CI, 14.8%-27.9%). In contrast, Gemini Advanced exhibited higher hallucination rates: 76.7% (95% CI, 69.9%-83.4%). While hallucination rates increased for more recent topics, this trend was not statistically significant for Gemini Advanced. These findings emphasize the importance of verifying chatbot-provided references, particularly in rapidly evolving fields.
- Abstract(参考訳): 2つのチャットボットであるChatGPT(4oおよびo1-previewバージョン)とGemini Advancedの信頼性を評価する。
文献で一般的に用いられている従来の二分法と並んで,幻覚率と話題の最近の変化を評価するために,非二分法と再発度尺度を開発した。
150の引用を分析した後、ChatGPT-4oの幻覚率は20.0% (95% CI, 13.6%-26.4%)、o1-previewの幻覚率は21.3% (95% CI, 14.8%-27.9%)であった。
対照的に、ジェミニ・アドバンストは76.7%(95%CI、69.9%-83.4%)高い幻覚率を示した。
幻覚率は近年では増加したが、この傾向はゲミニ・アドバンストにとって統計的に有意ではなかった。
これらの知見はチャットボットが提供する参照を,特に急速に発展する分野において検証することの重要性を強調した。
関連論文リスト
- The Effects of Hallucinations in Synthetic Training Data for Relation Extraction [11.046770690972723]
文書と文レベルにおける関係抽出の性能に及ぼす幻覚の影響について検討する。
幻覚は、テキストから関係を抽出するモデルの能力を著しく損なう。
本研究では,幻覚の検出手法を開発し,データ品質とモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-10-10T22:00:16Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models [11.218649399559691]
幻覚のないデータの微調整は、Llama 2の要約毎の幻覚を2.60から1.55に効果的に減少させる。
一般的なメトリクスは、忠実さや品質とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2024-02-23T16:32:28Z) - Factored Verification: Detecting and Reducing Hallucination in Summaries
of Academic Papers [1.7100359620532977]
抽象要約における幻覚の検出にはFacted Verificationを用いている。
複数の学術論文を要約する際に,言語モデルが幻覚する頻度を推定する。
私たちが発見する幻覚は、しばしば微妙なものであり、学術論文の合成にモデルを使う際には注意が必要である。
論文 参考訳(メタデータ) (2023-10-16T17:51:17Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Evaluating ChatGPT text-mining of clinical records for obesity
monitoring [0.0]
本稿では,大言語モデル (ChatGPT) とそれ以前に開発された正規表現 (RegexT) を比較し,獣医学的物語における過度に匿名化された身体状態スコア (BCS) を同定する。
論文 参考訳(メタデータ) (2023-08-03T10:11:42Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。