Fugu-MT 論文翻訳(概要): Trusta: Reasoning about Assurance Cases with Formal Methods and Large Language Models

論文の概要: Trusta: Reasoning about Assurance Cases with Formal Methods and Large Language Models

arxiv url: http://arxiv.org/abs/2309.12941v1
Date: Fri, 22 Sep 2023 15:42:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 13:58:28.951081
Title: Trusta: Reasoning about Assurance Cases with Formal Methods and Large Language Models
Title（参考訳）: trusta: 形式的手法と大規模言語モデルによる保証ケースの推論
Authors: Zezhong Chen, Yuxin Deng, Wenjie Du
Abstract要約: Trustworthiness Derivation Tree Analyzer (Trusta)は、TDTを自動構築し検証するデスクトップアプリケーションである。バックエンドにはPrologインタプリタが内蔵されており、制約解決器Z3とMONAによってサポートされている。 Trustaは自然言語のテキストから形式的な制約を抽出し、解釈と検証を容易にする。
参考スコア（独自算出の注目度）: 4.005483185111992
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assurance cases can be used to argue for the safety of products in safety engineering. In safety-critical areas, the construction of assurance cases is indispensable. Trustworthiness Derivation Trees (TDTs) enhance assurance cases by incorporating formal methods, rendering it possible for automatic reasoning about assurance cases. We present Trustworthiness Derivation Tree Analyzer (Trusta), a desktop application designed to automatically construct and verify TDTs. The tool has a built-in Prolog interpreter in its backend, and is supported by the constraint solvers Z3 and MONA. Therefore, it can solve constraints about logical formulas involving arithmetic, sets, Horn clauses etc. Trusta also utilizes large language models to make the creation and evaluation of assurance cases more convenient. It allows for interactive human examination and modification. We evaluated top language models like ChatGPT-3.5, ChatGPT-4, and PaLM 2 for generating assurance cases. Our tests showed a 50%-80% similarity between machine-generated and human-created cases. In addition, Trusta can extract formal constraints from text in natural languages, facilitating an easier interpretation and validation process. This extraction is subject to human review and correction, blending the best of automated efficiency with human insight. To our knowledge, this marks the first integration of large language models in automatic creating and reasoning about assurance cases, bringing a novel approach to a traditional challenge. Through several industrial case studies, Trusta has proven to quickly find some subtle issues that are typically missed in manual inspection, demonstrating its practical value in enhancing the assurance case development process.
Abstract（参考訳）: 保証ケースは、安全工学における製品の安全性を主張するのに使用できる。安全クリティカルな地域では、保証ケースの構築は不可欠である。 TDT(Trustworthiness Derivation Trees)は、形式的手法を取り入れた保証ケースを強化し、保証ケースに関する自動推論を可能にする。我々は,tdtの自動構築と検証を目的としたデスクトップアプリケーションであるtrusta(trustworthiness derivation tree analyzer)を提案する。このツールはバックエンドにprologインタプリタを内蔵しており、制約解決ツールz3とmonaがサポートしている。したがって、算術、集合、ホーン節などを含む論理式に関する制約を解くことができる。 Trustaはまた、大きな言語モデルを使用して、保証ケースの作成と評価をより便利にする。対話的な人間による検査と修正が可能である。 chatgpt-3.5,chatgpt-4,palm 2などの言語モデルを用いて保証ケースの生成を行った。実験では, マシン生成症例とヒト生成症例の50%-80%の類似性を示した。加えて、trustaは自然言語のテキストから形式的な制約を抽出でき、解釈と検証のプロセスが容易になる。この抽出は、人間のレビューと修正の対象であり、自動化された効率と人間の洞察を混ぜ合わせています。私たちの知る限り、これは保証ケースの自動作成と推論における大規模な言語モデルの初めての統合であり、従来の課題に新しいアプローチをもたらす。インダストリアルケーススタディを通じて、トラスタは手動検査で見落とされる微妙な問題を素早く発見し、保証ケースの開発プロセスを強化する実践的な価値を証明した。

関連論文リスト

Query as Test: An Intelligent Driving Test and Data Storage Method for Integrated Cockpit-Vehicle-Road Scenarios [17.75264660582999]
既存のテストメソッドはデータスタックに依存し、すべてのエッジケースをカバーすることができず、柔軟性がない。クエリ・アズ・テスト(QaT)は、厳格で規範化されたテストケースから、柔軟でオンデマンドな論理的なクエリへと焦点を移します。拡張シナリオ表記(ESN)は、新しい宣言型データフレームワークである。
論文参考訳（メタデータ） (2025-06-27T09:59:58Z)
Explainable Compliance Detection with Multi-Hop Natural Language Inference on Assurance Case Structure [1.5653612447564105]
自然言語推論(NLI)に基づくコンプライアンス検出手法を提案する。保証ケースのクレーム・アビデンス・エビデンス構造をマルチホップ推論として定式化し、説明可能かつトレーサブルなコンプライアンス検出を行う。本結果は,規制コンプライアンスプロセスの自動化におけるNLIベースのアプローチの可能性を強調した。
論文参考訳（メタデータ） (2025-06-10T11:56:06Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
LogiCase: Effective Test Case Generation from Logical Description in Competitive Programming [7.726159311658054]
CCFG(Context-Free Grammars with Counters)は、入力仕様における構文構造と意味構造の両方をキャプチャする形式である。微調整のCodeT5モデルを用いて、自然言語入力仕様をCFGに変換し、高品質なテストケースを体系的に生成する。
論文参考訳（メタデータ） (2025-05-21T02:48:01Z)
Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文参考訳（メタデータ） (2025-05-08T13:29:46Z)
Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文参考訳（メタデータ） (2025-02-18T02:26:50Z)
Automatic Instantiation of Assurance Cases from Patterns Using Large Language Models [6.314768437420443]
大きな言語モデル(LLM)は、特定のパターンに従う保証ケースを生成することができる。 LLMは保証ケースの自動生成の可能性を秘めているが、その能力は人間の専門家と比べても劣っている。
論文参考訳（メタデータ） (2024-10-07T20:58:29Z)
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。 FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文参考訳（メタデータ） (2024-09-30T06:27:53Z)
Automating Semantic Analysis of System Assurance Cases using Goal-directed ASP [1.2189422792863451]
本稿では, セマンティックルールに基づく分析機能を備えた Assurance 2.0 の拡張手法を提案する。本稿では, 論理的整合性, 妥当性, 不整合性など, 保証事例のユニークな意味的側面について考察する。
論文参考訳（メタデータ） (2024-08-21T15:22:43Z)
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting [6.938766764201549]
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。 4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
論文参考訳（メタデータ） (2024-07-31T21:12:21Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:51Z)
(Security) Assertions by Large Language Models [25.270188328436618]
セキュリティのためのハードウェアアサーション生成において,コード生成に新たな大規模言語モデル(LLM)を用いることを検討する。我々は、人気のあるLCMに注目し、プロンプトの様々なレベルの詳細を考慮し、アサーションを箱から書き出す能力を特徴付ける。
論文参考訳（メタデータ） (2023-06-24T17:44:36Z)
On the Reliability and Explainability of Language Models for Program Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文参考訳（メタデータ） (2023-02-19T14:59:52Z)
LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文参考訳（メタデータ） (2022-01-20T15:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。