論文の概要: Uncovering the Vulnerability of Large Language Models in the Financial Domain via Risk Concealment
- arxiv url: http://arxiv.org/abs/2509.10546v1
- Date: Sun, 07 Sep 2025 22:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.655032
- Title: Uncovering the Vulnerability of Large Language Models in the Financial Domain via Risk Concealment
- Title(参考訳): リスク認識による金融領域における大規模言語モデルの脆弱性の解明
- Authors: Gang Cheng, Haibo Jin, Wenbin Zhang, Haohan Wang, Jun Zhuang,
- Abstract要約: 大規模言語モデル(LLM)は、金融アプリケーションにますます統合されているが、既存のリピート研究は主に有害なコンテンツをターゲットにしている。
リスク・コンセロメント・アタック(RCA: Risk-Concealment Attacks)は、規制のリスクを反復的に隠蔽し、コンプライアンスに適合しているように見えるが規制に違反する応答を誘発する新しいマルチターン・フレームワークである。
FIN-Benchの実験では、RCAは9つの主要なLCMを効果的にバイパスし、平均攻撃成功率(ASR)は93.18%、GPT-4.1は98.28%、OpenAI o1は97.56%に達した。
- 参考スコア(独自算出の注目度): 29.36824550283463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into financial applications, yet existing red-teaming research primarily targets harmful content, largely neglecting regulatory risks. In this work, we aim to investigate the vulnerability of financial LLMs through red-teaming approaches. We introduce Risk-Concealment Attacks (RCA), a novel multi-turn framework that iteratively conceals regulatory risks to provoke seemingly compliant yet regulatory-violating responses from LLMs. To enable systematic evaluation, we construct FIN-Bench, a domain-specific benchmark for assessing LLM safety in financial contexts. Extensive experiments on FIN-Bench demonstrate that RCA effectively bypasses nine mainstream LLMs, achieving an average attack success rate (ASR) of 93.18%, including 98.28% on GPT-4.1 and 97.56% on OpenAI o1. These findings reveal a critical gap in current alignment techniques and underscore the urgent need for stronger moderation mechanisms in financial domains. We hope this work offers practical insights for advancing robust and domain-aware LLM alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融アプリケーションにますます統合されているが、既存のリピート研究は主に有害なコンテンツをターゲットにしており、規制のリスクを無視している。
本研究では,リピート手法を用いて,金融LLMの脆弱性を調査することを目的とする。
リスク・コンセロメント・アタック(RCA: Risk-Concealment Attacks)は、規制のリスクを反復的に隠蔽し、LCMからの規制に準拠すると思われる応答を誘発する新しいマルチターン・フレームワークである。
システム評価を実現するため,金融環境におけるLLMの安全性を評価するためのドメイン固有ベンチマークであるFIN-Benchを構築した。
FIN-Benchに関する大規模な実験では、RCAは9つの主要なLCMを効果的にバイパスし、平均攻撃成功率(ASR)は93.18%、GPT-4.1では98.28%、OpenAI o1では97.56%に達した。
これらの結果は、現在のアライメント技術に重大なギャップがあることを示し、金融分野におけるより強力なモデレーションメカニズムの必要性を浮き彫りにしている。
この作業は、堅牢でドメイン対応のLLMアライメントを向上するための実践的な洞察を提供することを期待しています。
関連論文リスト
- Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation [51.19622266249408]
MultiTrust-XはMLLMの信頼性問題を評価、分析、緩和するためのベンチマークである。
分類に基づいて、MultiTrust-Xには32のタスクと28のキュレートデータセットが含まれている。
私たちの実験は、現在のモデルに重大な脆弱性を明らかにします。
論文 参考訳(メタデータ) (2025-08-21T09:00:01Z) - Cross-Asset Risk Management: Integrating LLMs for Real-Time Monitoring of Equity, Fixed Income, and Currency Markets [30.815524322885754]
大規模言語モデル(LLM)は金融分野において強力なツールとして登場した。
LLMを利用したクロス・アセット・リスク・マネジメント・フレームワークを導入し、株式・固定所得・通貨市場のリアルタイムモニタリングを容易にする。
論文 参考訳(メタデータ) (2025-04-05T22:28:35Z) - Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk [31.43947127076459]
標準ベンチマークでは、大規模言語モデル(LLM)エージェントが金融面でどれだけうまく機能するかを定めているが、デプロイの安全性についてはほとんど語っていない。
我々は、精度の指標とリターンベースのスコアが、幻覚的な事実、古いデータ、敵の迅速な操作などの脆弱性を見渡すことで、信頼性の錯覚をもたらすと論じている。
論文 参考訳(メタデータ) (2025-02-21T12:56:15Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。