論文の概要: Beyond the Reported Cutoff: Where Large Language Models Fall Short on Financial Knowledge
- arxiv url: http://arxiv.org/abs/2504.00042v1
- Date: Sun, 30 Mar 2025 19:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.431589
- Title: Beyond the Reported Cutoff: Where Large Language Models Fall Short on Financial Knowledge
- Title(参考訳): 大規模言語モデルが財務知識に不足する状況
- Authors: Agam Shah, Liqin Ye, Sebastian Jaskowski, Wei Xu, Sudheer Chava,
- Abstract要約: 我々は、米国上場企業の財務データを用いて、Large Language Modelsの知識の広さを評価する。
以上の結果から,LLMは過去の業績についてはあまり知られていなかったが,大企業や最近の情報に対する認識が強くなっていることが明らかとなった。
- 参考スコア(独自算出の注目度): 10.319799137349861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are frequently utilized as sources of knowledge for question-answering. While it is known that LLMs may lack access to real-time data or newer data produced after the model's cutoff date, it is less clear how their knowledge spans across historical information. In this study, we assess the breadth of LLMs' knowledge using financial data of U.S. publicly traded companies by evaluating more than 197k questions and comparing model responses to factual data. We further explore the impact of company characteristics, such as size, retail investment, institutional attention, and readability of financial filings, on the accuracy of knowledge represented in LLMs. Our results reveal that LLMs are less informed about past financial performance, but they display a stronger awareness of larger companies and more recent information. Interestingly, at the same time, our analysis also reveals that LLMs are more likely to hallucinate for larger companies, especially for data from more recent years. We will make the code, prompts, and model outputs public upon the publication of the work.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答のための知識の源として頻繁に利用される。
LLMは、モデルが切り離された後に生成されたリアルタイムデータや、より新しいデータへのアクセスを欠いていることが知られているが、それらの知識が歴史的情報にわたってどのように広がるかは明らかではない。
本研究では、米国上場企業の財務データを用いて、LLMの知識の広さを評価し、197万以上の質問を評価し、実データとモデル応答を比較した。
さらに, LLM に表される知識の正確性に対する, 規模, 小売投資, 機関的注意, ファイナンシャルファイリングの可読性などの企業特性の影響について検討する。
以上の結果から,LLMは過去の業績についてはあまり知られていなかったが,大企業や最近の情報に対する認識が強くなっていることが明らかとなった。
興味深いことに、我々の分析によると、LSMは大企業、特に近年のデータにとって幻覚的になりがちだ。
作業の公開時にコード、プロンプト、モデルアウトプットを公開します。
関連論文リスト
- Evaluating open-source Large Language Models for automated fact-checking [0.13499500088995461]
大規模言語モデル(LLM)は、自動ファクトチェックの潜在的なツールとして登場した。
本研究は,異なるレベルの文脈情報を用いてクレームを評価する能力に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-07T16:45:33Z) - Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文 参考訳(メタデータ) (2024-11-23T07:20:36Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - THaLLE: Text Hyperlocally Augmented Large Language Extension -- Technical Report [0.8706730566331037]
超局所的に拡張された大言語拡張(THaLLE)の財務分析拡張について述べる。
一連の8B LLMは、同じ大きさのモデルに対するモックCFA試験において、常に最高性能を達成している。
また、金融アドバイザとしてLLMを評価するための公開データセットであるFrare CFAについても紹介する。
論文 参考訳(メタデータ) (2024-06-11T17:40:00Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Temporal Data Meets LLM -- Explainable Financial Time Series Forecasting [7.485041391778341]
我々はNASDAQ-100株に重点を置いており、公開アクセス可能な歴史的株価データ、企業のメタデータ、歴史的経済・金融ニュースを活用している。
我々は,Open-LLaMA などの公開 LLM を微調整した上で,説明可能な予測を生成するための命令を理解することができることを示す。
論文 参考訳(メタデータ) (2023-06-19T15:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。