論文の概要: FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
- arxiv url: http://arxiv.org/abs/2510.15232v1
- Date: Fri, 17 Oct 2025 01:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.433523
- Title: FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
- Title(参考訳): FinTrust:ファイナンス・ドメインにおける総合的信頼度評価ベンチマーク
- Authors: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao,
- Abstract要約: FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。
o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。
DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
- 参考スコア(独自算出の注目度): 54.06289302468199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent LLMs have demonstrated promising ability in solving finance related problems. However, applying LLMs in real-world finance application remains challenging due to its high risk and high stakes property. This paper introduces FinTrust, a comprehensive benchmark specifically designed for evaluating the trustworthiness of LLMs in finance applications. Our benchmark focuses on a wide range of alignment issues based on practical context and features fine-grained tasks for each dimension of trustworthiness evaluation. We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini outperforms in most tasks such as safety while open-source models like DeepSeek-V3 have advantage in specific areas like industry-level fairness. For challenging task like fiduciary alignment and disclosure, all LLMs fall short, showing a significant gap in legal awareness. We believe that FinTrust can be a valuable benchmark for LLMs' trustworthiness evaluation in finance domain.
- Abstract(参考訳): 近年のLLMは、金融関連の問題を解決する上で有望な能力を示している。
しかし, LLMを現実世界の金融アプリケーションに適用することはリスクが高く, 資産も高いため, 依然として困難である。
本稿では、金融アプリケーションにおけるLCMの信頼性を評価するための総合的なベンチマークであるFinTrustを紹介する。
本ベンチマークでは,実践的文脈に基づく多岐にわたるアライメント問題に着目し,信頼性評価の次元ごとにきめ細かなタスクを特徴とする。
我々は、FinTrust上で11のLLMを評価し、o4-miniのようなプロプライエタリなモデルが安全性など、ほとんどのタスクで優れており、DeepSeek-V3のようなオープンソースのモデルは、業界レベルの公正性のような特定の領域で利点がある。
フィデューシャルアライメントや開示といった困難なタスクでは、すべてのLCMが不足しており、法的認識に重大なギャップがある。
我々はフィントラストが金融分野におけるLLMの信頼性評価の貴重なベンチマークになり得ると考えている。
関連論文リスト
- TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。