論文の概要: Conversations Risk Detection LLMs in Financial Agents via Multi-Stage Generative Rollout
- arxiv url: http://arxiv.org/abs/2604.09056v1
- Date: Fri, 10 Apr 2026 07:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.748901
- Title: Conversations Risk Detection LLMs in Financial Agents via Multi-Stage Generative Rollout
- Title(参考訳): 多段階生成ロールアウトによる金融エージェントの会話リスク検出LLM
- Authors: Xiaotong Jiang, Jun Wu,
- Abstract要約: FinSecは金融エージェントのための4層セキュリティ検出フレームワークである。
実際の金融リスクを構造化し、解釈し、エンドツーエンドで識別することができる。
高リスク対話検出の堅牢性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 7.95412748755362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid adoption of large language models (LLMs) in financial service scenarios, dialogue security detection under high regulatory risk presents significant challenges. Existing methods mainly rely on single-dimensional semantic judgments or fixed rules, making them inadequate for handling multi-turn semantic evolution and complex regulatory clauses; moreover, they lack models specifically designed for financial security detection. To address these issues, this paper proposes FinSec, a four-tier security detection framework for financial agent. FinSec enables structured, interpretable, and end-to-end identification of actual financial risks, incorporating suspicious behavior pattern analysis, delayed risk and adversarial inference, semantic security analysis, and integrated risk-based decision-making. Notably, FinSec significantly enhances the robustness of high-risk dialogue detection while maintaining model utility. Experimental results demonstrate FinSec's leading performance. In terms of overall detection capability, FinSec achieves an F1 score of 90.13%, improving upon baseline models by 6--14 percentage points; its ASR is reduced to 9.09%, markedly lowering the probability of unsafe outputs; and the AUPRC increases to 0.9189 -- an approximate 9.7% gain over general frameworks. Additionally, in balancing utility and safety, FinSec obtains a composite score of 0.9098, delivering robust and efficient protection for financial agent dialogues.
- Abstract(参考訳): 金融サービスシナリオにおける大規模言語モデル(LLM)の急速な採用により、高い規制リスク下での対話セキュリティ検出が大きな課題となっている。
既存の方法は、主に単一次元の意味的判断や固定規則に依存しており、多次元の意味的進化や複雑な規制条項を扱うには不十分である。
これらの課題に対処するため,ファイナンシャルエージェントのための4層セキュリティ検出フレームワークであるFinSecを提案する。
FinSecは、疑わしい行動パターン分析、遅延リスクと敵対的推論、セマンティックセキュリティ分析、リスクベースの意思決定の統合といった、実際の金融リスクの構造化、解釈、エンドツーエンドの識別を可能にする。
特に、FinSecはモデルユーティリティを維持しながらハイリスク対話検出の堅牢性を大幅に向上させる。
実験結果はFinSecのリードパフォーマンスを示している。
全体的な検出能力に関しては、FinSecはF1スコアの90.13%に達し、ベースラインモデルでは6-14ポイント向上し、ASRは9.09%に低下し、安全でない出力の確率を著しく低下させ、AUPRCは0.9189に増加し、一般的なフレームワークよりもおよそ9.7%向上した。
さらに、実用性と安全性のバランスをとる上で、FinSecは0.9098の複合スコアを取得し、金融業者の対話に対する堅牢で効率的な保護を提供する。
関連論文リスト
- Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments [29.19862712902908]
FinVaultは、金融エージェントのための最初の実行基盤セキュリティベンチマークである。
現実的な金融エージェント設定では,既存の防衛機構が依然として有効ではないことを示す。
論文 参考訳(メタデータ) (2026-01-09T03:25:45Z) - Uni-FinLLM: A Unified Multimodal Large Language Model with Modular Task Heads for Micro-Level Stock Prediction and Macro-Level Systemic Risk Assessment [6.015507338546882]
金融機関や規制機関は、株価変動からシステム的脆弱性へのリスクを評価するために、異種データを統合するシステムを必要としている。
共用トランスフォーマーバックボーンとモジュールタスクヘッドを併用した統合マルチモーダル大言語モデルUni-FinLLMを提案する。
論文 参考訳(メタデータ) (2026-01-06T03:22:51Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - Uncovering the Vulnerability of Large Language Models in the Financial Domain via Risk Concealment [29.36824550283463]
大規模言語モデル(LLM)は、金融アプリケーションにますます統合されているが、既存のリピート研究は主に有害なコンテンツをターゲットにしている。
リスク・コンセロメント・アタック(RCA: Risk-Concealment Attacks)は、規制のリスクを反復的に隠蔽し、コンプライアンスに適合しているように見えるが規制に違反する応答を誘発する新しいマルチターン・フレームワークである。
FIN-Benchの実験では、RCAは9つの主要なLCMを効果的にバイパスし、平均攻撃成功率(ASR)は93.18%、GPT-4.1は98.28%、OpenAI o1は97.56%に達した。
論文 参考訳(メタデータ) (2025-09-07T22:35:15Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。