論文の概要: FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
- arxiv url: http://arxiv.org/abs/2605.00706v1
- Date: Fri, 01 May 2026 14:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.988595
- Title: FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
- Title(参考訳): FinSafetyBench: 現実の金融シナリオにおけるLLMの安全性の評価
- Authors: Yutao Hou, Yihan Jiang, Yuhan Xie, Jian Yang, Liwen Zhang, Hailiang Huang, Guanhua Chen, Yun Chen,
- Abstract要約: 大規模言語モデル(LLM)は金融シナリオにますます適用されてきている。
違法行為や非倫理的行為の促進など、有害なアウトプットを生み出すこともある。
We propose FinSafetyBench, a benchmark designed to test a LLM's refusal of request that violate financial compliance。
- 参考スコア(独自算出の注目度): 20.47244088110227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied in financial scenarios. However, they may produce harmful outputs, including facilitating illegal activities or unethical behavior, posing serious compliance risks. To systematically evaluate LLM safety in finance, we propose FinSafetyBench, a bilingual (English-Chinese) red-teaming benchmark designed to test an LLM's refusal of requests that violate financial compliance. Grounded in real-world financial crime cases and ethics standards, the benchmark comprises 14 subcategories spanning financial crimes and ethical violations. Through extensive experiments on general-purpose and finance-specialized LLMs under three representative attack settings, we identify critical vulnerabilities that allow adversarial prompts to bypass compliance safeguards. Further analysis reveals stronger susceptibility in Chinese contexts and highlights the limitations of prompt-level defenses against sophisticated or implicit manipulation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融シナリオにますます適用されてきている。
しかし、違法行為や非倫理的行為の促進など有害なアウトプットを生成し、深刻なコンプライアンスリスクを生じさせる可能性がある。
金融におけるLLMの安全性を体系的に評価するために、金融コンプライアンスに違反するLLMの要求の拒否をテストするために設計された、バイリンガル(英語と中国語)のレッドチームベンチマークであるFinSafetyBenchを提案する。
現実世界の金融犯罪と倫理基準に基づいており、このベンチマークは、金融犯罪と倫理違反にまたがる14のサブカテゴリで構成されている。
3つの攻撃条件下での汎用および金融特化LDMの広範な実験を通じて、敵がコンプライアンス保護を回避できる重大な脆弱性を特定した。
さらなる分析は、中国の文脈においてより強い感受性を示し、洗練されたまたは暗黙的な操作戦略に対する即時防御の限界を強調している。
関連論文リスト
- FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。
o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。
DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文 参考訳(メタデータ) (2025-10-17T01:45:49Z) - Uncovering the Vulnerability of Large Language Models in the Financial Domain via Risk Concealment [29.36824550283463]
大規模言語モデル(LLM)は、金融アプリケーションにますます統合されているが、既存のリピート研究は主に有害なコンテンツをターゲットにしている。
リスク・コンセロメント・アタック(RCA: Risk-Concealment Attacks)は、規制のリスクを反復的に隠蔽し、コンプライアンスに適合しているように見えるが規制に違反する応答を誘発する新しいマルチターン・フレームワークである。
FIN-Benchの実験では、RCAは9つの主要なLCMを効果的にバイパスし、平均攻撃成功率(ASR)は93.18%、GPT-4.1は98.28%、OpenAI o1は97.56%に達した。
論文 参考訳(メタデータ) (2025-09-07T22:35:15Z) - Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk [31.43947127076459]
標準ベンチマークでは、大規模言語モデル(LLM)エージェントが金融面でどれだけうまく機能するかを定めているが、デプロイの安全性についてはほとんど語っていない。
我々は、精度の指標とリターンベースのスコアが、幻覚的な事実、古いデータ、敵の迅速な操作などの脆弱性を見渡すことで、信頼性の錯覚をもたらすと論じている。
論文 参考訳(メタデータ) (2025-02-21T12:56:15Z) - Chat Bankman-Fried: an Exploration of LLM Alignment in Finance [4.892013668424246]
司法管轄区域はAIの安全性に関する法律を制定するので、アライメントの概念を定義して測定する必要がある。
本稿では,大規模言語モデル(LLM)が比較的未探索の財務状況において,倫理的・法的基準に準拠するか否かを評価するための実験的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-01T08:56:17Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。