Fugu-MT 論文翻訳(概要): Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis

論文の概要: Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis

arxiv url: http://arxiv.org/abs/2406.10273v4
Date: Thu, 18 Jul 2024 11:21:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 13:52:17.008154
Title: Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis
Title（参考訳）: 言葉を超えて: ミッションクリティカルリスク分析における大規模言語モデルでの行動可能性
Authors: Matteo Esposito, Francesco Palagiano, Valentina Lenarduzzi, Davide Taibi,
Abstract要約: リスク分析の原則はコンテキストレスです。リスク分析には、国内外の規制や基準に関する膨大な知識が必要である。大規模な言語モデルは、人間よりも少ない時間で情報を素早く要約することができ、特定のタスクに微調整することができる。
参考スコア（独自算出の注目度）: 7.098487130130114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Context. Risk analysis assesses potential risks in specific scenarios. Risk analysis principles are context-less; the same methodology can be applied to a risk connected to health and information technology security. Risk analysis requires a vast knowledge of national and international regulations and standards and is time and effort-intensive. A large language model can quickly summarize information in less time than a human and can be fine-tuned to specific tasks. Aim. Our empirical study aims to investigate the effectiveness of Retrieval-Augmented Generation and fine-tuned LLM in risk analysis. To our knowledge, no prior study has explored its capabilities in risk analysis. Method. We manually curated 193 unique scenarios leading to 1283 representative samples from over 50 mission-critical analyses archived by the industrial context team in the last five years. We compared the base GPT-3.5 and GPT-4 models versus their Retrieval-Augmented Generation and fine-tuned counterparts. We employ two human experts as competitors of the models and three other human experts to review the models and the former human experts' analysis. The reviewers analyzed 5,000 scenario analyses. Results and Conclusions. Human experts demonstrated higher accuracy, but LLMs are quicker and more actionable. Moreover, our findings show that RAG-assisted LLMs have the lowest hallucination rates, effectively uncovering hidden risks and complementing human expertise. Thus, the choice of model depends on specific needs, with FTMs for accuracy, RAG for hidden risks discovery, and base models for comprehensiveness and actionability. Therefore, experts can leverage LLMs as an effective complementing companion in risk analysis within a condensed timeframe. They can also save costs by averting unnecessary expenses associated with implementing unwarranted countermeasures.
Abstract（参考訳）: コンテキスト。リスク分析は特定のシナリオにおける潜在的なリスクを評価する。リスク分析の原則は、コンテキストレスであり、同じ方法論を、健康や情報技術のセキュリティに関連するリスクに適用することができる。リスク分析には、国内外の規制や基準に関する膨大な知識が必要であり、時間と努力が集中している。大きな言語モデルは、人間よりも少ない時間で情報を素早く要約することができ、特定のタスクに微調整することができる。エイム。本研究は,リスク分析における検索・拡張世代と微調整LDMの有効性を検討することを目的とした実証研究である。我々の知る限り、リスク分析の能力について事前の研究は行われていない。方法。過去5年間に産業状況チームによってアーカイブされた50以上のミッションクリティカルな分析から、1283のサンプルに導かれる193のシナリオを手作業でキュレートしました。基本モデルであるGPT-3.5とGPT-4とRetrieval-Augmented Generationおよび微調整モデルを比較した。我々は、モデルと以前の人間の専門家の分析をレビューするために、モデルの競合相手として2人の人間専門家と、他の3人の人間専門家を雇います。審査員は5000のシナリオ分析を行った。結果と結論。人間の専門家は高い精度を示したが、LSMはより速く、より実用的なものである。さらに,RAG支援LSMが最も低い幻覚率を示し,隠れたリスクを効果的に発見し,人間の専門知識を補完することを示した。したがって、モデルの選択は、正確性のためのFTM、隠れたリスク発見のためのRAG、包括性と行動可能性のためのベースモデルなど、特定のニーズに依存する。したがって、専門家は、凝縮した時間枠内でのリスク分析において、LSMを効果的な補完コンパニオンとして活用することができる。また、不当な対策の実施に伴う不要な費用を回避することでコストを削減できる。

関連論文リスト

ff4ERA: A new Fuzzy Framework for Ethical Risk Assessment in AI [0.24578723416255746]
本稿では、ファジィ論理、ファジィ解析階層プロセス(FAHP)、不確実因子(CF)を統合したファジィフレームワークであるff4ERAを紹介する。このフレームワークは、協調倫理的リスクアセスメントモデリングとシステマティック・ステップ・バイ・ステップ分析のための堅牢な数学的アプローチを提供する。あるケーススタディでは、ff4ERAが、専門家の入力とセンサーに基づく証拠の両方を反映した文脈に敏感で有意義なリスクスコアを得ることを確認した。
論文参考訳（メタデータ） (2025-07-28T14:41:36Z)
Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation [0.7889270818022226]
我々は、リスク見積の作成を容易にするために、既存のAIベンチマークをどのように利用できるかを示す。本稿では、AIベンチマークであるCybenchからの情報を用いて確率推定を生成するパイロット研究の結果について述べる。
論文参考訳（メタデータ） (2025-03-06T10:39:47Z)
Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents [10.565508277042564]
大規模言語モデル(LLM)は、自律的な意思決定者へと進化し、ハイステークシナリオにおける破滅的なリスクに対する懸念を高めている。このようなリスクは,エージェントのHelpful,Harmlessness,Hoest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて,新しい3段階評価フレームワークを構築した。 14,400個のエージェントシミュレーションを12個の先進LDMで行い、広範囲な実験と分析を行った。
論文参考訳（メタデータ） (2025-02-17T02:11:17Z)
Effective Mitigations for Systemic Risks from General-Purpose AI [9.39718128736321]
AIの安全性、重要なインフラ、民主的プロセス、化学、生物学的、放射線学、核リスク(CBRN)、差別と偏見にまたがる専門知識を持つ76人の専門家を調査した。リスク軽減対策は,様々なシステム的リスクを低減し,ドメインの専門家が技術的に実現可能であると認識されている。安全インシデント報告とセキュリティ情報共有、サードパーティのデプロイ前モデル監査、デプロイ前リスク評価の3つの対策が注目されている。
論文参考訳（メタデータ） (2024-11-14T22:39:25Z)
Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。 LLMをベースとしたエージェントの6つの重要な特徴を概説する。 4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文参考訳（メタデータ） (2024-11-14T15:40:04Z)
Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play [0.43512163406552007]
大きな言語モデル(LLM)がより普及するにつれて、その安全性、倫理、潜在的なバイアスに対する懸念が高まっている。本研究は,認知科学からLLMまで,Domain-Specific Risk-Taking(DOSPERT)尺度を革新的に適用する。本研究では,LLMの倫理的リスク態度を深く評価するために,倫理的意思決定リスク態度尺度(EDRAS)を提案する。
論文参考訳（メタデータ） (2024-10-26T15:55:21Z)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [78.99703366417661]
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こす高リスクな実験室環境では特に危険である。実験室安全ベンチマーク (LabSafety Bench) を提案し, 潜在的な危険を識別し, リスクを評価し, 実験室環境における安全でない行動の結果を予測する。
論文参考訳（メタデータ） (2024-10-18T05:21:05Z)
Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文参考訳（メタデータ） (2024-08-16T17:23:43Z)
CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。 7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文参考訳（メタデータ） (2024-06-07T08:52:24Z)
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文参考訳（メタデータ） (2024-05-23T02:57:42Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Leveraging Large Language Models for Preliminary Security Risk Analysis: A Mission-Critical Case Study [0.0]
PSRAにおけるヒトの専門家の速度と精度は応答時間に大きく影響した。 PSRAにおける細調整モデル(FTM)の能力について先行研究は行われていない。提案手法は,PSRAの誤りの低減,セキュリティリスク検出の迅速化,偽陽性と否定の最小化に成功している。
論文参考訳（メタデータ） (2024-03-23T07:59:30Z)
Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文参考訳（メタデータ） (2024-03-22T06:46:40Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。