Fugu-MT 論文翻訳(概要): Evaluating the Accuracy of Chatbots in Financial Literature

論文の概要: Evaluating the Accuracy of Chatbots in Financial Literature

arxiv url: http://arxiv.org/abs/2411.07031v1
Date: Mon, 11 Nov 2024 14:37:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.489185
Title: Evaluating the Accuracy of Chatbots in Financial Literature
Title（参考訳）: 金融文献におけるチャットボットの精度評価
Authors: Orhan Erdem, Kristi Hassett, Feyzullah Egriboyun,
Abstract要約: 2つのチャットボットであるChatGPT(4oおよびo1-previewバージョン)とGemini Advancedの信頼性を評価する。本研究は,幻覚率とトピックの最近の変化を評価するために,非バイナリアプローチと回帰尺度を開発した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluate the reliability of two chatbots, ChatGPT (4o and o1-preview versions), and Gemini Advanced, in providing references on financial literature and employing novel methodologies. Alongside the conventional binary approach commonly used in the literature, we developed a nonbinary approach and a recency measure to assess how hallucination rates vary with how recent a topic is. After analyzing 150 citations, ChatGPT-4o had a hallucination rate of 20.0% (95% CI, 13.6%-26.4%), while the o1-preview had a hallucination rate of 21.3% (95% CI, 14.8%-27.9%). In contrast, Gemini Advanced exhibited higher hallucination rates: 76.7% (95% CI, 69.9%-83.4%). While hallucination rates increased for more recent topics, this trend was not statistically significant for Gemini Advanced. These findings emphasize the importance of verifying chatbot-provided references, particularly in rapidly evolving fields.
Abstract（参考訳）: 2つのチャットボットであるChatGPT(4oおよびo1-previewバージョン)とGemini Advancedの信頼性を評価する。文献で一般的に用いられている従来の二分法と並んで,幻覚率と話題の最近の変化を評価するために,非二分法と再発度尺度を開発した。 150の引用を分析した後、ChatGPT-4oの幻覚率は20.0% (95% CI, 13.6%-26.4%)、o1-previewの幻覚率は21.3% (95% CI, 14.8%-27.9%)であった。対照的に、ジェミニ・アドバンストは76.7%(95%CI、69.9%-83.4%)高い幻覚率を示した。幻覚率は近年では増加したが、この傾向はゲミニ・アドバンストにとって統計的に有意ではなかった。これらの知見はチャットボットが提供する参照を,特に急速に発展する分野において検証することの重要性を強調した。

関連論文リスト

Development and Evaluation of HopeBot: an LLM-based chatbot for structured and interactive PHQ-9 depression screening [48.355615275247786]
HopeBotは、PHQ-9(Patent Health Questionnaire-9)を検索強化世代とリアルタイムの明確化を用いて管理する。内部調査では、英国と中国の132人の成人が、自己管理版とチャットボット版の両方を完成させた。全体の87.1%は、ホープボットの再利用や推奨を表明している。
論文参考訳（メタデータ） (2025-07-08T13:41:22Z)
Assessing the performance of 8 AI chatbots in bibliographic reference retrieval: Grok and DeepSeek outperform ChatGPT, but none are fully accurate [0.0]
全5分野(健康・工学・実験科学・社会科学・人文科学)で計400件の参考文献が評価された。結果は、参照の26.5%が完全に正しいこと、33.8%が部分的に正しいこと、39.8%が誤って、あるいは完全に作られたことが示されている。これらの発見は、現在のAIモデルの構造的制約を明らかにし、学生による非クリティカルな使用のリスクを強調し、情報と批判的リテラシーを強化する必要性を強調している。
論文参考訳（メタデータ） (2025-05-23T16:07:14Z)
From Knowledge Generation to Knowledge Verification: Examining the BioMedical Generative Capabilities of ChatGPT [45.6537455491436]
本手法は, 疾患中心の関連性の生成と関連性検証という2つのプロセスから構成される。選択したLSMとしてChatGPTを用いて,疾患と関連する薬物,症状,遺伝子との連携を確立するために,迅速なエンジニアリングプロセスを構築した。
論文参考訳（メタデータ） (2025-02-20T16:39:57Z)
MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。 GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文参考訳（メタデータ） (2025-02-20T06:33:23Z)
SycEval: Evaluating LLM Sycophancy [10.11891394949636]
大規模言語モデル(LLM)は、教育、臨床、専門的な設定にますます応用されている。独立した推論よりもユーザ合意を優先する、彼らの梅毒の傾向は、信頼性にリスクをもたらします。本研究では,ChatGPT-4o,Claude-Sonnet,Gemini-1.5-Proの各データセットにおけるサイコファンティックな振る舞いを評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T07:32:42Z)
The Effects of Hallucinations in Synthetic Training Data for Relation Extraction [11.046770690972723]
文書と文レベルにおける関係抽出の性能に及ぼす幻覚の影響について検討する。幻覚は、テキストから関係を抽出するモデルの能力を著しく損なう。本研究では,幻覚の検出手法を開発し,データ品質とモデル性能を向上させる。
論文参考訳（メタデータ） (2024-10-10T22:00:16Z)
Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文参考訳（メタデータ） (2024-07-10T20:37:42Z)
Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文参考訳（メタデータ） (2024-03-07T18:00:40Z)
A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models [11.218649399559691]
幻覚のないデータの微調整は、Llama 2の要約毎の幻覚を2.60から1.55に効果的に減少させる。一般的なメトリクスは、忠実さや品質とよく相関しないことがわかった。
論文参考訳（メタデータ） (2024-02-23T16:32:28Z)
Factored Verification: Detecting and Reducing Hallucination in Summaries of Academic Papers [1.7100359620532977]
抽象要約における幻覚の検出にはFacted Verificationを用いている。複数の学術論文を要約する際に,言語モデルが幻覚する頻度を推定する。私たちが発見する幻覚は、しばしば微妙なものであり、学術論文の合成にモデルを使う際には注意が必要である。
論文参考訳（メタデータ） (2023-10-16T17:51:17Z)
Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。 GLM-130B と ChatGPT の2種類の幻覚について考察した。評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文参考訳（メタデータ） (2023-10-05T07:57:09Z)
Automatically measuring speech fluency in people with aphasia: first achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文参考訳（メタデータ） (2023-08-09T07:51:40Z)
Evaluating ChatGPT text-mining of clinical records for obesity monitoring [0.0]
本稿では,大言語モデル (ChatGPT) とそれ以前に開発された正規表現 (RegexT) を比較し,獣医学的物語における過度に匿名化された身体状態スコア (BCS) を同定する。
論文参考訳（メタデータ） (2023-08-03T10:11:42Z)
A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。生成過程における幻覚を積極的に検出・緩和する手法を提案する。提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文参考訳（メタデータ） (2023-07-08T14:25:57Z)
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。 FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文参考訳（メタデータ） (2023-05-23T17:06:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。