Fugu-MT 論文翻訳(概要): Evaluating the Effectiveness of GPT-4 Turbo in Creating Defeaters for Assurance Cases

論文の概要: Evaluating the Effectiveness of GPT-4 Turbo in Creating Defeaters for Assurance Cases

arxiv url: http://arxiv.org/abs/2401.17991v1
Date: Wed, 31 Jan 2024 16:51:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 13:54:40.216242
Title: Evaluating the Effectiveness of GPT-4 Turbo in Creating Defeaters for Assurance Cases
Title（参考訳）: 保証事例に対するgpt-4ターボの打破機作成効果の評価
Authors: Kimya Khakzad Shahandashti, Mithila Sivakumar, Mohammad Mahdi Mohajer, Alvine B. Belle, Song Wang, Timothy C. Lethbridge
Abstract要約: 我々は OpenAI が開発した高度な大規模言語モデル (LLM) である GPT-4 Turbo を用いて,Electinative Argumentation (EA) 表記を用いて形式化された AC 内の敗者を特定する。最初の評価は、このフレームワーク内での議論の理解と生成におけるモデルの習熟度を評価する。その結果, GPT-4 TurboはEA表記に優れ, 様々な種類の敗北者を生成することができることがわかった。
参考スコア（独自算出の注目度）: 6.231203956284574
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assurance cases (ACs) are structured arguments that support the verification of the correct implementation of systems' non-functional requirements, such as safety and security, thereby preventing system failures which could lead to catastrophic outcomes, including loss of lives. ACs facilitate the certification of systems in accordance with industrial standards, for example, DO-178C and ISO 26262. Identifying defeaters arguments that refute these ACs is essential for improving the robustness and confidence in ACs. To automate this task, we introduce a novel method that leverages the capabilities of GPT-4 Turbo, an advanced Large Language Model (LLM) developed by OpenAI, to identify defeaters within ACs formalized using the Eliminative Argumentation (EA) notation. Our initial evaluation gauges the model's proficiency in understanding and generating arguments within this framework. The findings indicate that GPT-4 Turbo excels in EA notation and is capable of generating various types of defeaters.
Abstract（参考訳）: 保証ケース(acs)は、安全や安全といったシステムの非機能要件の正しい実装の検証をサポートする構造化された議論であり、システム障害を防止し、命の喪失を含む壊滅的な結果につながる可能性がある。 acsはdo-178cやiso 26262といった産業規格に従ってシステムの認証を促進する。これらのACに反論する敗者を特定することは、ACの堅牢性と信頼性を向上させるために不可欠である。このタスクを自動化するために,OpenAI が開発した高度な大規模言語モデル (LLM) である GPT-4 Turbo を応用した新しい手法を導入し,Electinative Argumentation (EA) 表記を用いて形式化された AC 内の敗者を特定する。最初の評価は、このフレームワーク内での議論の理解と生成におけるモデルの習熟度を評価する。その結果, GPT-4 TurboはEA表記に優れ, 様々な種類の敗北者を生成することができることがわかった。

関連論文リスト

Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks [9.277492743469235]
本稿では,DeepSeekシリーズモデルの最初の系統的ジェイルブレイク評価について述べる。 HarmBench ベンチマークを用いて GPT-3.5 と GPT-4 を比較した。
論文参考訳（メタデータ） (2025-06-23T11:53:31Z)
T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文参考訳（メタデータ） (2025-05-10T16:04:52Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文参考訳（メタデータ） (2025-04-02T15:59:31Z)
SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。 AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文参考訳（メタデータ） (2024-10-22T03:38:37Z)
Automated Proof Generation for Rust Code via Self-Evolution [69.25795662658356]
私たちは、Rustコードの自動証明生成を可能にする、人間による証明の欠如を克服する新しいフレームワークであるSAFEを紹介します。 GPT-4oに比べて効率と精度が優れていた。この進歩により性能が大幅に向上し、人間の専門家によるベンチマークで70.50%の精度が達成された。
論文参考訳（メタデータ） (2024-10-21T08:15:45Z)
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文参考訳（メタデータ） (2024-09-10T15:39:32Z)
AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [80.90138009539004]
AIR-Bench 2024は、新しい政府の規制や企業のポリシーに適合する最初のAI安全ベンチマークである。 8つの政府規制と16の企業政策を4階層の安全分類に分解し、最も低い階層に粒度の細かいリスクカテゴリを分類する。 AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
論文参考訳（メタデータ） (2024-07-11T21:16:48Z)
Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文参考訳（メタデータ） (2024-06-28T17:05:46Z)
Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。 ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文参考訳（メタデータ） (2024-06-20T15:12:27Z)
PVF (Parameter Vulnerability Factor): A Scalable Metric for Understanding AI Vulnerability Against SDCs in Model Parameters [7.652441604508354]
脆弱性因子(Vulnerability Factor, PVF)は、AIモデル脆弱性のパラメータ破損に対する定量化を目標とする指標である。 PVFは、フォールトプロテクションとパフォーマンス/効率のトレードオフのバランスをとる上で、AIハードウェアデザイナに重要な洞察を提供することができる。推論中にPVFを3種類のタスク/モデルに適用するためのユースケースとして、DLRM、ビジョン分類(CNN)、テキスト分類(BERT)を挙げる。
論文参考訳（メタデータ） (2024-05-02T21:23:34Z)
FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文参考訳（メタデータ） (2024-03-26T08:51:23Z)
GPT-4 and Safety Case Generation: An Exploratory Analysis [2.3361634876233817]
本稿では,大言語モデル (LLM) と会話インタフェース (ChatGPT) を用いた安全事例の生成について検討する。我々の第一の目的は、GPT-4の既存の知識基盤を掘り下げることであり、ゴール構造化表記法(GSN)の理解に焦点を当てることである。我々は,GPT-4を用いた4つの実験を行い,システムとアプリケーション領域内の安全ケースを生成する能力を評価した。
論文参考訳（メタデータ） (2023-12-09T22:28:48Z)
Security and Interpretability in Automotive Systems [0.0]
送信者認証機構がないため、CAN(Controller Area Network)はセキュリティ上の脅威に対して脆弱である。この論文では、電子制御ユニット(ECU)の消費電力測定と分類モデルを用いてECUの送信状態を決定する送信者認証手法を実証する。
論文参考訳（メタデータ） (2022-12-23T01:33:09Z)
Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。 i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文参考訳（メタデータ） (2021-05-23T01:50:44Z)
Runtime Safety Assurance Using Reinforcement Learning [37.61747231296097]
本稿では,安全でない状況を高精度に識別できるメタコントローラを設計することを目的とする。我々は,RTSAの設計をマルコフ決定プロセス(MDP)と組み合わせ,強化学習(RL)を用いて解決する。
論文参考訳（メタデータ） (2020-10-20T20:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。