論文の概要: Evaluating the Accuracy of Chatbots in Financial Literature
- arxiv url: http://arxiv.org/abs/2411.07031v1
- Date: Mon, 11 Nov 2024 14:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:46.489185
- Title: Evaluating the Accuracy of Chatbots in Financial Literature
- Title(参考訳): 金融文献におけるチャットボットの精度評価
- Authors: Orhan Erdem, Kristi Hassett, Feyzullah Egriboyun,
- Abstract要約: 2つのチャットボットであるChatGPT(4oおよびo1-previewバージョン)とGemini Advancedの信頼性を評価する。
本研究は,幻覚率とトピックの最近の変化を評価するために,非バイナリアプローチと回帰尺度を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the reliability of two chatbots, ChatGPT (4o and o1-preview versions), and Gemini Advanced, in providing references on financial literature and employing novel methodologies. Alongside the conventional binary approach commonly used in the literature, we developed a nonbinary approach and a recency measure to assess how hallucination rates vary with how recent a topic is. After analyzing 150 citations, ChatGPT-4o had a hallucination rate of 20.0% (95% CI, 13.6%-26.4%), while the o1-preview had a hallucination rate of 21.3% (95% CI, 14.8%-27.9%). In contrast, Gemini Advanced exhibited higher hallucination rates: 76.7% (95% CI, 69.9%-83.4%). While hallucination rates increased for more recent topics, this trend was not statistically significant for Gemini Advanced. These findings emphasize the importance of verifying chatbot-provided references, particularly in rapidly evolving fields.
- Abstract(参考訳): 2つのチャットボットであるChatGPT(4oおよびo1-previewバージョン)とGemini Advancedの信頼性を評価する。
文献で一般的に用いられている従来の二分法と並んで,幻覚率と話題の最近の変化を評価するために,非二分法と再発度尺度を開発した。
150の引用を分析した後、ChatGPT-4oの幻覚率は20.0% (95% CI, 13.6%-26.4%)、o1-previewの幻覚率は21.3% (95% CI, 14.8%-27.9%)であった。
対照的に、ジェミニ・アドバンストは76.7%(95%CI、69.9%-83.4%)高い幻覚率を示した。
幻覚率は近年では増加したが、この傾向はゲミニ・アドバンストにとって統計的に有意ではなかった。
これらの知見はチャットボットが提供する参照を,特に急速に発展する分野において検証することの重要性を強調した。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Compound Deception in Elite Peer Review: A Failure Mode Taxonomy of 100 Fabricated Citations at NeurIPS 2025 [0.0]
大規模言語モデル (LLM) は学術的著作においてますます使われてきているが、それらが存在しない情報源への引用を生成することで、しばしば幻覚を引き起こす。
本研究は,2025年ニューラル情報処理システム学会が受理した論文に現れる100個のAI生成幻覚励起を解析する。
1紙あたり3-5人の専門家によるレビューにもかかわらず、これらの引用は検出を回避し、53の論文に現れた。
論文 参考訳(メタデータ) (2026-02-05T17:43:35Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Sense of Self and Time in Borderline Personality. A Comparative Robustness Study with Generative AI [0.0]
本研究では,境界性パーソナリティ障害(BPD)における一人称経験の質的分析を支援するための大規模言語モデル(LLM)の能力について検討する。
元の研究者の解釈スタイルを模倣するために、3つのLSMを比較した。
その結果,GPTでは0%,Claudeでは42%,Geminiでは58%,Jaccard係数は0.21-0.28であった。
ジェミニの出力は人間の分析に最もよく似ており、GPTやClaude(p 0.0001)よりも高い精度で評価され、盲目の専門家によって人間であると判断された。
論文 参考訳(メタデータ) (2025-08-26T13:13:47Z) - Development and Evaluation of HopeBot: an LLM-based chatbot for structured and interactive PHQ-9 depression screening [48.355615275247786]
HopeBotは、PHQ-9(Patent Health Questionnaire-9)を検索強化世代とリアルタイムの明確化を用いて管理する。
内部調査では、英国と中国の132人の成人が、自己管理版とチャットボット版の両方を完成させた。
全体の87.1%は、ホープボットの再利用や推奨を表明している。
論文 参考訳(メタデータ) (2025-07-08T13:41:22Z) - Assessing the performance of 8 AI chatbots in bibliographic reference retrieval: Grok and DeepSeek outperform ChatGPT, but none are fully accurate [0.0]
全5分野(健康・工学・実験科学・社会科学・人文科学)で計400件の参考文献が評価された。
結果は、参照の26.5%が完全に正しいこと、33.8%が部分的に正しいこと、39.8%が誤って、あるいは完全に作られたことが示されている。
これらの発見は、現在のAIモデルの構造的制約を明らかにし、学生による非クリティカルな使用のリスクを強調し、情報と批判的リテラシーを強化する必要性を強調している。
論文 参考訳(メタデータ) (2025-05-23T16:07:14Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - From Knowledge Generation to Knowledge Verification: Examining the BioMedical Generative Capabilities of ChatGPT [45.6537455491436]
本手法は, 疾患中心の関連性の生成と関連性検証という2つのプロセスから構成される。
選択したLSMとしてChatGPTを用いて,疾患と関連する薬物,症状,遺伝子との連携を確立するために,迅速なエンジニアリングプロセスを構築した。
論文 参考訳(メタデータ) (2025-02-20T16:39:57Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - SycEval: Evaluating LLM Sycophancy [10.11891394949636]
大規模言語モデル(LLM)は、教育、臨床、専門的な設定にますます応用されている。
独立した推論よりもユーザ合意を優先する、彼らの梅毒の傾向は、信頼性にリスクをもたらします。
本研究では,ChatGPT-4o,Claude-Sonnet,Gemini-1.5-Proの各データセットにおけるサイコファンティックな振る舞いを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T07:32:42Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - The Effects of Hallucinations in Synthetic Training Data for Relation Extraction [11.046770690972723]
文書と文レベルにおける関係抽出の性能に及ぼす幻覚の影響について検討する。
幻覚は、テキストから関係を抽出するモデルの能力を著しく損なう。
本研究では,幻覚の検出手法を開発し,データ品質とモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-10-10T22:00:16Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models [11.218649399559691]
幻覚のないデータの微調整は、Llama 2の要約毎の幻覚を2.60から1.55に効果的に減少させる。
一般的なメトリクスは、忠実さや品質とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2024-02-23T16:32:28Z) - Factored Verification: Detecting and Reducing Hallucination in Summaries
of Academic Papers [1.7100359620532977]
抽象要約における幻覚の検出にはFacted Verificationを用いている。
複数の学術論文を要約する際に,言語モデルが幻覚する頻度を推定する。
私たちが発見する幻覚は、しばしば微妙なものであり、学術論文の合成にモデルを使う際には注意が必要である。
論文 参考訳(メタデータ) (2023-10-16T17:51:17Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Evaluating ChatGPT text-mining of clinical records for obesity
monitoring [0.0]
本稿では,大言語モデル (ChatGPT) とそれ以前に開発された正規表現 (RegexT) を比較し,獣医学的物語における過度に匿名化された身体状態スコア (BCS) を同定する。
論文 参考訳(メタデータ) (2023-08-03T10:11:42Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。