論文の概要: LLMs as Judges: Toward The Automatic Review of GSN-compliant Assurance Cases
- arxiv url: http://arxiv.org/abs/2511.02203v1
- Date: Tue, 04 Nov 2025 02:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.779865
- Title: LLMs as Judges: Toward The Automatic Review of GSN-compliant Assurance Cases
- Title(参考訳): 審査員としてのLCM : GSN準拠の保証事例の自動審査に向けて
- Authors: Gerhard Yu, Mithila Sivakumar, Alvine B. Belle, Soude Ghari, Song Wang, Timothy C. Lethbridge,
- Abstract要約: 保証ケースは、ミッションクリティカルシステムの特定の非機能要件の正しい実装を検証することができる。
彼らは、人命、環境被害、金融損失を含むあらゆる種類の害のリスクを減らすことを目指している。
保証ケースは、数百ページにわたる広範なドキュメントとして整理され、その作成、レビュー、メンテナンスがエラーを起こし、時間がかかり、面倒であることが多い。
レビュープロセスを自動化するために,textitLLM-as-a-judgeパラダイムを活用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 6.29065956656341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assurance cases allow verifying the correct implementation of certain non-functional requirements of mission-critical systems, including their safety, security, and reliability. They can be used in the specification of autonomous driving, avionics, air traffic control, and similar systems. They aim to reduce risks of harm of all kinds including human mortality, environmental damage, and financial loss. However, assurance cases often tend to be organized as extensive documents spanning hundreds of pages, making their creation, review, and maintenance error-prone, time-consuming, and tedious. Therefore, there is a growing need to leverage (semi-)automated techniques, such as those powered by generative AI and large language models (LLMs), to enhance efficiency, consistency, and accuracy across the entire assurance-case lifecycle. In this paper, we focus on assurance case review, a critical task that ensures the quality of assurance cases and therefore fosters their acceptance by regulatory authorities. We propose a novel approach that leverages the \textit{LLM-as-a-judge} paradigm to automate the review process. Specifically, we propose new predicate-based rules that formalize well-established assurance case review criteria, allowing us to craft LLM prompts tailored to the review task. Our experiments on several state-of-the-art LLMs (GPT-4o, GPT-4.1, DeepSeek-R1, and Gemini 2.0 Flash) show that, while most LLMs yield relatively good review capabilities, DeepSeek-R1 and GPT-4.1 demonstrate superior performance, with DeepSeek-R1 ultimately outperforming GPT-4.1. However, our experimental results also suggest that human reviewers are still needed to refine the reviews LLMs yield.
- Abstract(参考訳): 保証ケースは、ミッションクリティカルシステムの安全性、セキュリティ、信頼性など、特定の非機能要件の正しい実装を検証することができる。
これらは、自律走行、アビオニクス、航空交通管制、その他のシステムの仕様で使用できる。
彼らは、人命、環境被害、金融損失を含むあらゆる種類の害のリスクを減らすことを目指している。
しかし、保証ケースは数百ページにわたる広範なドキュメントとして整理されることが多く、その作成、レビュー、メンテナンスはエラーを起こしやすく、時間がかかり、面倒である。
したがって、生成AIや大規模言語モデル(LLM)を動力とするような(半自動)技術を活用して、アシュアランス・ケース全体の効率性、一貫性、精度を高める必要性が高まっている。
本稿では, 保証事例の質を保証し, 規制当局による承認を促進する重要な課題である, 保証事例のレビューに焦点をあてる。
レビュープロセスを自動化するために,textit{LLM-as-a-judge} パラダイムを活用する新しい手法を提案する。
具体的には、確固とした保証ケースレビュー基準を定式化した述語に基づく新しいルールを提案し、レビュータスクに適したLCMプロンプトを作成できるようにする。
最新のLCM(GPT-4o, GPT-4.1, DeepSeek-R1, Gemini 2.0 Flash)の実験では、ほとんどのLCMは比較的優れたレビュー能力を持つが、DeepSeek-R1とGPT-4.1は優れた性能を示し、最終的にGPT-4.1を上回った。
しかし, 実験結果から, LLMの収量を改善するためには, 人間のレビュアーが依然として必要であることが示唆された。
関連論文リスト
- BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk [31.43947127076459]
標準ベンチマークでは、大規模言語モデル(LLM)エージェントが金融面でどれだけうまく機能するかを定めているが、デプロイの安全性についてはほとんど語っていない。
我々は、精度の指標とリターンベースのスコアが、幻覚的な事実、古いデータ、敵の迅速な操作などの脆弱性を見渡すことで、信頼性の錯覚をもたらすと論じている。
論文 参考訳(メタデータ) (2025-02-21T12:56:15Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。