Fugu-MT 論文翻訳(概要): A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models

論文の概要: A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models

arxiv url: http://arxiv.org/abs/2505.04784v1
Date: Wed, 07 May 2025 20:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.667964
Title: A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models
Title（参考訳）: 大規模言語モデルに基づくチャットボットの運用リスク評価手法の提案
Authors: Pedro Pinacho-Davidson, Fernando Gutierrez, Pablo Zapata, Rodolfo Vergara, Pablo Aqueveque,
Abstract要約: 3つの主要なステークホルダーに対する潜在的な脅威を同時に評価する新しいリスク評価指標を提案する。メトリクスを検証するために、脆弱性テスト用のオープンソースのフレームワークであるGarakを活用しています。その結果、セキュアで信頼性の高いAI駆動会話システムの運用における多次元リスクアセスメントの重要性が浮き彫りになった。
参考スコア（独自算出の注目度）: 39.58317527488534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Generative AI (Gen AI) and Large Language Models (LLMs) has enabled more advanced chatbots capable of human-like interactions. However, these conversational agents introduce a broader set of operational risks that extend beyond traditional cybersecurity considerations. In this work, we propose a novel, instrumented risk-assessment metric that simultaneously evaluates potential threats to three key stakeholders: the service-providing organization, end users, and third parties. Our approach incorporates the technical complexity required to induce erroneous behaviors in the chatbot--ranging from non-induced failures to advanced prompt-injection attacks--as well as contextual factors such as the target industry, user age range, and vulnerability severity. To validate our metric, we leverage Garak, an open-source framework for LLM vulnerability testing. We further enhance Garak to capture a variety of threat vectors (e.g., misinformation, code hallucinations, social engineering, and malicious code generation). Our methodology is demonstrated in a scenario involving chatbots that employ retrieval-augmented generation (RAG), showing how the aggregated risk scores guide both short-term mitigation and longer-term improvements in model design and deployment. The results underscore the importance of multi-dimensional risk assessments in operationalizing secure, reliable AI-driven conversational systems.
Abstract（参考訳）: Generative AI(Gen AI)とLarge Language Models(LLMs)の出現により、人間のような対話が可能な高度なチャットボットが実現された。しかし、これらの会話エージェントは、従来のサイバーセキュリティの考慮を超えて、幅広い運用上のリスクを導入している。本研究では,サービス提供組織,エンドユーザ,サードパーティの3つの主要なステークホルダに対する潜在的な脅威を同時に評価する,リスク評価尺度を提案する。提案手法は,非誘導的障害から先進的インジェクション攻撃まで,チャットボットの誤動作を誘発するために必要な技術的複雑さと,ターゲット産業やユーザ年齢,脆弱性の深刻度といったコンテキスト要因を取り入れたものである。メトリクスを検証するために、LLM脆弱性テストのためのオープンソースのフレームワークであるGarakを活用しています。さらにGarakを拡張して、さまざまな脅威ベクトル(誤情報、コード幻覚、ソーシャルエンジニアリング、悪意のあるコード生成など)をキャプチャします。提案手法は, 検索強化世代(RAG)を用いたチャットボットのシナリオにおいて, 短期的緩和と長期的モデル設計・展開の改善の両面から, 集約されたリスクスコアがどのように導かれるかを示す。この結果は、セキュアで信頼性の高いAI駆動会話システムの運用における多次元リスクアセスメントの重要性を浮き彫りにした。

関連論文リスト

SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文参考訳（メタデータ） (2025-07-01T15:10:00Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文参考訳（メタデータ） (2025-02-18T19:33:14Z)
Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文参考訳（メタデータ） (2025-02-18T02:26:50Z)
Leveraging Conversational Generative AI for Anomaly Detection in Digital Substations [0.0]
提案したADフレームワークとHITLベースのADフレームワークの比較評価を行うために,高度なパフォーマンス指標を採用している。このアプローチは、サイバーセキュリティの課題が進展する中で、電力系統運用の信頼性を高めるための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-11-09T18:38:35Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文参考訳（メタデータ） (2024-10-02T14:47:05Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。 3つの主要株主グループに対する脅威もマップ化しています。
論文参考訳（メタデータ） (2024-03-20T05:17:22Z)
On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。 LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。 ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文参考訳（メタデータ） (2023-05-03T18:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。