論文の概要: Risk-based test framework for LLM features in regulated software
- arxiv url: http://arxiv.org/abs/2601.17292v1
- Date: Sat, 24 Jan 2026 04:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.505413
- Title: Risk-based test framework for LLM features in regulated software
- Title(参考訳): 規制ソフトウェアにおけるLCM機能に対するリスクベーステストフレームワーク
- Authors: Zhiyin Zhou,
- Abstract要約: 大規模な言語モデルは、規制と安全にクリティカルなソフトウェアにますます組み込まれている。
彼らは幻覚、有害または外見的アドバイス、プライバシーとセキュリティの問題、偏見、変化中の不安定性、敵の誤用などのリスクを導入する。
本稿では,規制ソフトウェアにおけるLSM機能に対するリスクベースのテストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly embedded in regulated and safety-critical software, including clinical research platforms and healthcare information systems. While these features enable natural language search, summarization, and configuration assistance, they introduce risks such as hallucinations, harmful or out-of-scope advice, privacy and security issues, bias, instability under change, and adversarial misuse. Prior work on machine learning testing and AI assurance offers useful concepts but limited guidance for interactive, product-embedded assistants. This paper proposes a risk-based testing framework for LLM features in regulated software: a six-category risk taxonomy, a layered test strategy mapping risks to concrete tests across guardrail, orchestration, and system layers, and a case study applying the approach to a Knowledgebase assistant in a clinical research platform.
- Abstract(参考訳): 大規模言語モデルは、臨床研究プラットフォームや医療情報システムを含む、規制と安全に重要なソフトウェアにますます組み込まれている。
これらの機能は自然言語検索、要約、設定支援を可能にするが、幻覚、有害またはスコープ外アドバイス、プライバシーとセキュリティの問題、バイアス、変化中の不安定性、敵の誤用などのリスクを導入する。
機械学習テストとAI保証に関する以前の研究は、有用な概念を提供するが、インタラクティブでプロダクトを組み込んだアシスタントのための限定的なガイダンスを提供する。
本稿では,規制ソフトウェアにおけるLSM機能に対するリスクベースのテストフレームワークを提案する。6カテゴリのリスク分類,ガードレール,オーケストレーション,システム層にわたる具体的なテストに対するリスクの階層化テスト戦略マッピング,および臨床研究プラットフォームにおける知識ベースアシスタントへのアプローチの適用事例について述べる。
関連論文リスト
- Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Navigating the Risks of Using Large Language Models for Text Annotation in Social Science Research [3.276333240221372]
大規模言語モデル(LLM)は、計算社会科学に革命をもたらす可能性がある。
テキスト分類タスクにLLMを使用する際の約束とリスクを体系的に評価する。
論文 参考訳(メタデータ) (2025-03-27T23:33:36Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文 参考訳(メタデータ) (2024-01-02T16:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。