論文の概要: FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
- arxiv url: http://arxiv.org/abs/2510.15232v1
- Date: Fri, 17 Oct 2025 01:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.433523
- Title: FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain
- Title(参考訳): FinTrust:ファイナンス・ドメインにおける総合的信頼度評価ベンチマーク
- Authors: Tiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao,
- Abstract要約: FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。
o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。
DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
- 参考スコア(独自算出の注目度): 54.06289302468199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent LLMs have demonstrated promising ability in solving finance related problems. However, applying LLMs in real-world finance application remains challenging due to its high risk and high stakes property. This paper introduces FinTrust, a comprehensive benchmark specifically designed for evaluating the trustworthiness of LLMs in finance applications. Our benchmark focuses on a wide range of alignment issues based on practical context and features fine-grained tasks for each dimension of trustworthiness evaluation. We assess eleven LLMs on FinTrust and find that proprietary models like o4-mini outperforms in most tasks such as safety while open-source models like DeepSeek-V3 have advantage in specific areas like industry-level fairness. For challenging task like fiduciary alignment and disclosure, all LLMs fall short, showing a significant gap in legal awareness. We believe that FinTrust can be a valuable benchmark for LLMs' trustworthiness evaluation in finance domain.
- Abstract(参考訳): 近年のLLMは、金融関連の問題を解決する上で有望な能力を示している。
しかし, LLMを現実世界の金融アプリケーションに適用することはリスクが高く, 資産も高いため, 依然として困難である。
本稿では、金融アプリケーションにおけるLCMの信頼性を評価するための総合的なベンチマークであるFinTrustを紹介する。
本ベンチマークでは,実践的文脈に基づく多岐にわたるアライメント問題に着目し,信頼性評価の次元ごとにきめ細かなタスクを特徴とする。
我々は、FinTrust上で11のLLMを評価し、o4-miniのようなプロプライエタリなモデルが安全性など、ほとんどのタスクで優れており、DeepSeek-V3のようなオープンソースのモデルは、業界レベルの公正性のような特定の領域で利点がある。
フィデューシャルアライメントや開示といった困難なタスクでは、すべてのLCMが不足しており、法的認識に重大なギャップがある。
我々はフィントラストが金融分野におけるLLMの信頼性評価の貴重なベンチマークになり得ると考えている。
関連論文リスト
- FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Uncovering the Vulnerability of Large Language Models in the Financial Domain via Risk Concealment [29.36824550283463]
大規模言語モデル(LLM)は、金融アプリケーションにますます統合されているが、既存のリピート研究は主に有害なコンテンツをターゲットにしている。
リスク・コンセロメント・アタック(RCA: Risk-Concealment Attacks)は、規制のリスクを反復的に隠蔽し、コンプライアンスに適合しているように見えるが規制に違反する応答を誘発する新しいマルチターン・フレームワークである。
FIN-Benchの実験では、RCAは9つの主要なLCMを効果的にバイパスし、平均攻撃成功率(ASR)は93.18%、GPT-4.1は98.28%、OpenAI o1は97.56%に達した。
論文 参考訳(メタデータ) (2025-09-07T22:35:15Z) - Towards Competent AI for Fundamental Analysis in Finance: A Benchmark Dataset and Evaluation [5.892346584607669]
ファイナンシャルステートメント分析に着目したベンチマークデータセットであるFinAR-Benchを提案する。
重要な情報を抽出し、財務指標を計算し、論理的推論を適用する。
本研究は, 基礎解析におけるLLMの現在の強度と限界を明確に把握するものである。
論文 参考訳(メタデータ) (2025-05-22T07:06:20Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - Will LLMs be Professional at Fund Investment? DeepFund: A Live Arena Perspective [10.932591941137698]
大規模言語モデル(LLM)は、様々な領域にまたがって印象的な能力を示してきたが、財務的な意思決定におけるその効果は、いまだに不十分である。
実環境におけるLCMベースのトレーディング戦略を評価するための総合的なアリーナプラットフォームであるDeepFundを紹介する。
当社のアプローチでは,実世界の投資決定プロセスを実現する上で,複数の重要な役割を担うマルチエージェントフレームワークを実装している。
論文 参考訳(メタデータ) (2025-03-24T03:32:13Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。