論文の概要: A Methodology for Assessing the Risk of Metric Failure in LLMs Within the Financial Domain
- arxiv url: http://arxiv.org/abs/2510.13524v2
- Date: Thu, 16 Oct 2025 12:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.103446
- Title: A Methodology for Assessing the Risk of Metric Failure in LLMs Within the Financial Domain
- Title(参考訳): 金融分野におけるLCMにおけるメトリクス障害のリスク評価手法
- Authors: William Flanagan, Mukunda Das, Rajitha Ramanayake, Swanuja Maslekar, Meghana Mangipudi, Joong Ho Choi, Shruti Nair, Shambhavi Bhusan, Sanjana Dulam, Mouni Pendharkar, Nidhi Singh, Vashisth Doshi, Sachi Shah Paresh,
- Abstract要約: 過去の機械学習メトリクスは、しばしばGenAIワークロードへの一般化に失敗することがある。
本稿では、これらの課題を説明し、中小企業と機械学習メトリクスのより良い適用を可能にするリスクアセスメントフレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.25409967292854213
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As Generative Artificial Intelligence is adopted across the financial services industry, a significant barrier to adoption and usage is measuring model performance. Historical machine learning metrics can oftentimes fail to generalize to GenAI workloads and are often supplemented using Subject Matter Expert (SME) Evaluation. Even in this combination, many projects fail to account for various unique risks present in choosing specific metrics. Additionally, many widespread benchmarks created by foundational research labs and educational institutions fail to generalize to industrial use. This paper explains these challenges and provides a Risk Assessment Framework to allow for better application of SME and machine learning Metrics
- Abstract(参考訳): ジェネレーティブ・人工知能は金融サービス業界全体で採用されているため、採用と利用の大きな障壁はモデルのパフォーマンスの測定である。
歴史的機械学習メトリクスは、しばしばGenAIワークロードへの一般化に失敗し、しばしばSME(Subject Matter Expert)評価を使用して補完される。
この組み合わせであっても、多くのプロジェクトは特定のメトリクスを選択する際に生じる様々なユニークなリスクを考慮できません。
さらに、基礎研究機関や教育機関によって作成された多くの広範囲なベンチマークは、産業利用への一般化に失敗している。
本稿では、これらの課題を説明し、中小企業と機械学習メトリクスのより良い適用を可能にするリスクアセスメントフレームワークを提供する。
関連論文リスト
- ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - Rethinking Machine Unlearning in Image Generation Models [59.697750585491264]
CatIGMUは、新しい階層的なタスク分類フレームワークである。
EvalIGMUは包括的な評価フレームワークである。
高品質な未学習データセットであるDataIGMを構築した。
論文 参考訳(メタデータ) (2025-06-03T11:25:14Z) - Alpha Excel Benchmark [0.0]
本研究では,FMWC(Financial Modeling World Cup)Excelコンペティションから得られた課題を用いて,LLM(Large Language Models)を評価するための新しいベンチマークを提案する。
本研究は,認識タスクの強みを示すが,複雑な数値推論に苦しむモデルを用いて,様々な課題カテゴリにおける性能の有意な変化を示した。
論文 参考訳(メタデータ) (2025-05-07T03:56:26Z) - GEMS: Generative Expert Metric System through Iterative Prompt Priming [18.0413505095456]
非専門家は、効果的な測度を作成したり、理論を文脈特異的なメトリクスに変換するのが直感的ではないと考えることができる。
この技術的レポートは、大規模ソフトウェア企業内のソフトウェアコミュニティを調べることで、この問題に対処する。
本稿では,ニューラルアクティビティにインスパイアされたプロンプトエンジニアリングフレームワークを提案し,生成モデルが理論を抽出し,要約できることを実証する。
論文 参考訳(メタデータ) (2024-10-01T17:14:54Z) - A machine learning workflow to address credit default prediction [0.44943951389724796]
信用デフォルト予測(CDP)は個人や企業の信用力を評価する上で重要な役割を果たす。
CDPを改善するためのワークフローベースのアプローチを提案する。これは、借り手が信用義務を負う確率を評価するタスクを指す。
論文 参考訳(メタデータ) (2024-03-06T15:30:41Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - Truthful Meta-Explanations for Local Interpretability of Machine
Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。
本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文 参考訳(メタデータ) (2022-12-07T08:32:04Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。