論文の概要: Risk-based test framework for LLM features in regulated software
- arxiv url: http://arxiv.org/abs/2601.17292v1
- Date: Sat, 24 Jan 2026 04:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.505413
- Title: Risk-based test framework for LLM features in regulated software
- Title(参考訳): 規制ソフトウェアにおけるLCM機能に対するリスクベーステストフレームワーク
- Authors: Zhiyin Zhou,
- Abstract要約: 大規模な言語モデルは、規制と安全にクリティカルなソフトウェアにますます組み込まれている。
彼らは幻覚、有害または外見的アドバイス、プライバシーとセキュリティの問題、偏見、変化中の不安定性、敵の誤用などのリスクを導入する。
本稿では,規制ソフトウェアにおけるLSM機能に対するリスクベースのテストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly embedded in regulated and safety-critical software, including clinical research platforms and healthcare information systems. While these features enable natural language search, summarization, and configuration assistance, they introduce risks such as hallucinations, harmful or out-of-scope advice, privacy and security issues, bias, instability under change, and adversarial misuse. Prior work on machine learning testing and AI assurance offers useful concepts but limited guidance for interactive, product-embedded assistants. This paper proposes a risk-based testing framework for LLM features in regulated software: a six-category risk taxonomy, a layered test strategy mapping risks to concrete tests across guardrail, orchestration, and system layers, and a case study applying the approach to a Knowledgebase assistant in a clinical research platform.
- Abstract(参考訳): 大規模言語モデルは、臨床研究プラットフォームや医療情報システムを含む、規制と安全に重要なソフトウェアにますます組み込まれている。
これらの機能は自然言語検索、要約、設定支援を可能にするが、幻覚、有害またはスコープ外アドバイス、プライバシーとセキュリティの問題、バイアス、変化中の不安定性、敵の誤用などのリスクを導入する。
機械学習テストとAI保証に関する以前の研究は、有用な概念を提供するが、インタラクティブでプロダクトを組み込んだアシスタントのための限定的なガイダンスを提供する。
本稿では,規制ソフトウェアにおけるLSM機能に対するリスクベースのテストフレームワークを提案する。6カテゴリのリスク分類,ガードレール,オーケストレーション,システム層にわたる具体的なテストに対するリスクの階層化テスト戦略マッピング,および臨床研究プラットフォームにおける知識ベースアシスタントへのアプローチの適用事例について述べる。
関連論文リスト
- RxSafeBench: Identifying Medication Safety Issues of Large Language Models in Simulated Consultation [19.41567007880886]
大規模言語モデル(LLM)は多様な医療タスクにおいて顕著な進歩を遂げた。
しかし、それらの医薬品の安全性に関する研究は、現実世界のデータセットが不足しているため、依然として限られている。
臨床相談をシミュレートし,評価し,LSMの薬剤安全性を体系的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-06T12:56:34Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Navigating the Risks of Using Large Language Models for Text Annotation in Social Science Research [3.276333240221372]
大規模言語モデル(LLM)は、計算社会科学に革命をもたらす可能性がある。
テキスト分類タスクにLLMを使用する際の約束とリスクを体系的に評価する。
論文 参考訳(メタデータ) (2025-03-27T23:33:36Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [78.99703366417661]
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こす高リスクな実験室環境では特に危険である。
実験室安全ベンチマーク (LabSafety Bench) を提案し, 潜在的な危険を識別し, リスクを評価し, 実験室環境における安全でない行動の結果を予測する。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文 参考訳(メタデータ) (2024-01-02T16:14:30Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。