論文の概要: CoDefeater: Using LLMs To Find Defeaters in Assurance Cases
- arxiv url: http://arxiv.org/abs/2407.13717v1
- Date: Thu, 18 Jul 2024 17:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:21:47.904212
- Title: CoDefeater: Using LLMs To Find Defeaters in Assurance Cases
- Title(参考訳): CoDefeater: 保証ケースのデフェータを見つけるためにLLMを使用する
- Authors: Usman Gohar, Michael C. Hunter, Robyn R. Lutz, Myra B. Cohen,
- Abstract要約: 本稿では,大言語モデル (LLM) を利用して敗者を見つける自動化プロセスであるCoDefeaterを提案する。
2つのシステムの最初の結果は、LLMが安全アナリストを支援するために、既知の、予期せぬ破壊者を効率的に見つけることができることを示している。
- 参考スコア(独自算出の注目度): 4.4398355848251745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing assurance cases is a widely used, and sometimes required, process toward demonstrating that safety-critical systems will operate safely in their planned environment. To mitigate the risk of errors and missing edge cases, the concept of defeaters - arguments or evidence that challenge claims in an assurance case - has been introduced. Defeaters can provide timely detection of weaknesses in the arguments, prompting further investigation and timely mitigations. However, capturing defeaters relies on expert judgment, experience, and creativity and must be done iteratively due to evolving requirements and regulations. This paper proposes CoDefeater, an automated process to leverage large language models (LLMs) for finding defeaters. Initial results on two systems show that LLMs can efficiently find known and unforeseen feasible defeaters to support safety analysts in enhancing the completeness and confidence of assurance cases.
- Abstract(参考訳): 保証ケースの構築は、安全クリティカルなシステムが計画された環境で安全に動作することを示すために広く使われ、時には必要となるプロセスである。
エラーやエッジケースの欠落のリスクを軽減するため、アシュアランスケースにおける主張に異議を唱える議論や証拠といった、敗者の概念が導入された。
決定者は議論の弱点をタイムリーに検出し、さらなる調査とタイムリーな軽減を促すことができる。
しかし、敗者の捕獲は専門家の判断、経験、創造性に依存しており、要求と規則の進化のために反復的に行う必要がある。
本稿では,大言語モデル (LLM) を利用して敗者を見つける自動化プロセスであるCoDefeaterを提案する。
2つのシステムでの最初の結果は、LLMが安全アナリストを支援するために、既知の、予期せぬ破滅者を見つけ、保証事例の完全性と信頼性を高めることができることを示している。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Automatic Instantiation of Assurance Cases from Patterns Using Large Language Models [6.314768437420443]
大きな言語モデル(LLM)は、特定のパターンに従う保証ケースを生成することができる。
LLMは保証ケースの自動生成の可能性を秘めているが、その能力は人間の専門家と比べても劣っている。
論文 参考訳(メタデータ) (2024-10-07T20:58:29Z) - Automating Semantic Analysis of System Assurance Cases using Goal-directed ASP [1.2189422792863451]
本稿では, セマンティックルールに基づく分析機能を備えた Assurance 2.0 の拡張手法を提案する。
本稿では, 論理的整合性, 妥当性, 不整合性など, 保証事例のユニークな意味的側面について考察する。
論文 参考訳(メタデータ) (2024-08-21T15:22:43Z) - InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback [70.54226917774933]
本稿では,リスク行動が実行される前に,潜在的なエラーを積極的に検出する新しい手法であるInferActを紹介する。
InferActは人間のプロキシとして機能し、安全でないアクションを検出し、ユーザーの介入を警告する。
広く使われている3つのタスクの実験は、InferActの有効性を示している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - A PRISMA-Driven Bibliometric Analysis of the Scientific Literature on Assurance Case Patterns [7.930875992631788]
保証ケースはシステム障害を防ぐために使用できる。
それらは構造化された議論であり、様々な安全クリティカルなシステムの要求を議論し、中継することができる。
論文 参考訳(メタデータ) (2024-07-06T05:00:49Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。