論文の概要: TRIDENT: Benchmarking LLM Safety in Finance, Medicine, and Law
- arxiv url: http://arxiv.org/abs/2507.21134v1
- Date: Tue, 22 Jul 2025 17:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:54.972143
- Title: TRIDENT: Benchmarking LLM Safety in Finance, Medicine, and Law
- Title(参考訳): TRIDENT:金融・医療・法におけるLLMの安全性のベンチマーク
- Authors: Zheng Hui, Yijiang River Dong, Ehsan Shareghi, Nigel Collier,
- Abstract要約: 大規模言語モデル(LLM)は、法律、金融、医療といったリスクの高い領域にますます展開されている。
まず,AMA Principles of Medical Ethics, ABA Model Rules of Professional Conduct, CFA Institute Code of Ethicsに基づいて,LLMのドメイン固有の安全原則を定義した。
法、金融、医療分野におけるLLMの安全性に特化したベンチマークであるTrident-Benchを紹介する。
- 参考スコア(独自算出の注目度): 31.29594375377673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in high-risk domains such as law, finance, and medicine, systematically evaluating their domain-specific safety and compliance becomes critical. While prior work has largely focused on improving LLM performance in these domains, it has often neglected the evaluation of domain-specific safety risks. To bridge this gap, we first define domain-specific safety principles for LLMs based on the AMA Principles of Medical Ethics, the ABA Model Rules of Professional Conduct, and the CFA Institute Code of Ethics. Building on this foundation, we introduce Trident-Bench, a benchmark specifically targeting LLM safety in the legal, financial, and medical domains. We evaluated 19 general-purpose and domain-specialized models on Trident-Bench and show that it effectively reveals key safety gaps -- strong generalist models (e.g., GPT, Gemini) can meet basic expectations, whereas domain-specialized models often struggle with subtle ethical nuances. This highlights an urgent need for finer-grained domain-specific safety improvements. By introducing Trident-Bench, our work provides one of the first systematic resources for studying LLM safety in law and finance, and lays the groundwork for future research aimed at reducing the safety risks of deploying LLMs in professionally regulated fields. Code and benchmark will be released at: https://github.com/zackhuiiiii/TRIDENT
- Abstract(参考訳): 大規模言語モデル(LLM)が法律、金融、医療といったリスクの高い領域にますます導入されるにつれて、そのドメイン固有の安全性とコンプライアンスを体系的に評価することが重要になる。
これまでの研究はLLMの性能向上に重点を置いてきたが、ドメイン固有の安全リスクの評価は無視されることが多い。
このギャップを埋めるために、まず、AMA Principles of Medical Ethics、ABA Model Rules of Professional Conduct、CFA Institute Code of Ethicsに基づいて、LLMのドメイン固有の安全原則を定義します。
この基盤の上に構築されたTrident-Benchは、法律、金融、医療分野におけるLLMの安全性に特化したベンチマークである。
我々は、Trident-Bench上で19の汎用およびドメイン特化モデルを評価し、強力なジェネラリストモデル(例えば、GPT、Gemini)は基本的な期待を満たせるが、ドメイン特化モデルは微妙な倫理的ニュアンスに悩むことが多いことを効果的に示す。
これにより、よりきめ細かいドメイン固有の安全性の改善が緊急に必要になる。
トライデント・ベンチの導入により、法律・金融分野におけるLLMの安全性を研究するための最初の体系的資源の1つとなり、専門分野におけるLLMの展開の安全性リスク低減を目的とした今後の研究の基盤となる。
コードとベンチマークは、https://github.com/zackhuiiiii/TRIDENTでリリースされる。
関連論文リスト
- Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications [0.0]
本稿では,大規模言語モデル(LLM)におけるアプリケーションレベルの安全性を評価するための実践的フレームワークを提案する。
提案したフレームワークが社内パイロットにどのように適用されたのかを説明し、安全テストの取り組みのスケールアップを目指す組織に対して、基準ポイントを提供する。
論文 参考訳(メタデータ) (2025-07-13T22:34:20Z) - Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk [31.43947127076459]
標準ベンチマークでは、大規模言語モデル(LLM)エージェントが金融面でどれだけうまく機能するかを定めているが、デプロイの安全性についてはほとんど語っていない。
我々は、精度の指標とリターンベースのスコアが、幻覚的な事実、古いデータ、敵の迅速な操作などの脆弱性を見渡すことで、信頼性の錯覚をもたらすと論じている。
論文 参考訳(メタデータ) (2025-02-21T12:56:15Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [67.27279184423723]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。