Fugu-MT 論文翻訳(概要): Risk-Adjusted Harm Scoring for Automated Red Teaming for LLMs in Financial Services

論文の概要: Risk-Adjusted Harm Scoring for Automated Red Teaming for LLMs in Financial Services

arxiv url: http://arxiv.org/abs/2603.10807v1
Date: Wed, 11 Mar 2026 14:14:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:32.991103
Title: Risk-Adjusted Harm Scoring for Automated Red Teaming for LLMs in Financial Services
Title（参考訳）: 金融サービスにおけるLCMの自動チーム化のためのリスク調整型ハームスコアリング
Authors: Fabrizio Dimino, Bhaskarjit Sarmah, Stefano Pasquali,
Abstract要約: 本稿では,銀行,金融サービス,保険のセキュリティ障害に対するリスク対応評価フレームワークを提案する。我々は、金融害のドメイン固有の分類法、自動化されたマルチラウンド赤チームパイプライン、およびアンサンブルに基づく判断プロトコルを組み合わせる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid adoption of large language models (LLMs) in financial services introduces new operational, regulatory, and security risks. Yet most red-teaming benchmarks remain domain-agnostic and fail to capture failure modes specific to regulated BFSI settings, where harmful behavior can be elicited through legally or professionally plausible framing. We propose a risk-aware evaluation framework for LLM security failures in Banking, Financial Services, and Insurance (BFSI), combining a domain-specific taxonomy of financial harms, an automated multi-round red-teaming pipeline, and an ensemble-based judging protocol. We introduce the Risk-Adjusted Harm Score (RAHS), a risk-sensitive metric that goes beyond success rates by quantifying the operational severity of disclosures, accounting for mitigation signals, and leveraging inter-judge agreement. Across diverse models, we find that higher decoding stochasticity and sustained adaptive interaction not only increase jailbreak success, but also drive systematic escalation toward more severe and operationally actionable financial disclosures. These results expose limitations of single-turn, domain-agnostic security evaluation and motivate risk-sensitive assessment under prolonged adversarial pressure for real-world BFSI deployment.
Abstract（参考訳）: 金融サービスにおける大規模言語モデル(LLM)の急速な採用は、新たな運用、規制、セキュリティリスクをもたらす。しかし、ほとんどのレッドチームベンチマークはドメインに依存しておらず、規制されたBFSI設定に特有の障害モードをキャプチャできない。本稿では,銀行,金融サービス,保険におけるLLMのセキュリティ障害に対するリスク意識評価フレームワークを提案する。リスク調整ハームスコア(RAHS)は、開示の運用状況の重大度を定量化し、緩和シグナルを考慮し、リスクに敏感な指標である。多様なモデルにおいて、高い復号確率性と継続的な適応的相互作用は、ジェイルブレイクの成功を増大させるだけでなく、より深刻で運用可能な財務開示への体系的なエスカレーションを促進する。これらの結果は、単一ターン、ドメインに依存しないセキュリティ評価の限界を明らかにし、現実世界のBFSI展開に対する長期の敵圧の下でリスクに敏感な評価を動機付けている。

関連論文リスト

Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文参考訳（メタデータ） (2026-02-03T18:17:22Z)
The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文参考訳（メタデータ） (2026-01-24T07:09:50Z)
FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments [29.19862712902908]
FinVaultは、金融エージェントのための最初の実行基盤セキュリティベンチマークである。現実的な金融エージェント設定では,既存の防衛機構が依然として有効ではないことを示す。
論文参考訳（メタデータ） (2026-01-09T03:25:45Z)
Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文参考訳（メタデータ） (2025-10-06T15:52:12Z)
Uncovering the Vulnerability of Large Language Models in the Financial Domain via Risk Concealment [29.36824550283463]
大規模言語モデル(LLM)は、金融アプリケーションにますます統合されているが、既存のリピート研究は主に有害なコンテンツをターゲットにしている。リスク・コンセロメント・アタック(RCA: Risk-Concealment Attacks)は、規制のリスクを反復的に隠蔽し、コンプライアンスに適合しているように見えるが規制に違反する応答を誘発する新しいマルチターン・フレームワークである。 FIN-Benchの実験では、RCAは9つの主要なLCMを効果的にバイパスし、平均攻撃成功率(ASR)は93.18%、GPT-4.1は98.28%、OpenAI o1は97.56%に達した。
論文参考訳（メタデータ） (2025-09-07T22:35:15Z)
SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文参考訳（メタデータ） (2025-07-01T15:10:00Z)
A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network [53.37983409425452]
大規模言語モデル(LLM)は幅広いアプリケーションで大きな成功を収めています。近年,MultiLLMネットワーク(MultiLLMN)などの協調フレームワークが導入されている。重み付きビザンチンフォールトトレランス(WBFT)ブロックチェーンコンセンサス機構によって駆動される新しいTrusted MultiLLMNフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-08T10:04:41Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。