論文の概要: Hallucination-Resistant Security Planning with a Large Language Model
- arxiv url: http://arxiv.org/abs/2602.05279v1
- Date: Thu, 05 Feb 2026 04:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.752868
- Title: Hallucination-Resistant Security Planning with a Large Language Model
- Title(参考訳): 大規模言語モデルを用いた幻覚耐性セキュリティ計画
- Authors: Kim Hammar, Tansu Alpcan, Emil Lupu,
- Abstract要約: セキュリティ管理における意思決定支援として,大規模言語モデル(LLM)を使用するための原則的フレームワークを導入する。
我々のフレームワークは、LLMを反復ループに統合し、システム制約との整合性を確認するための候補アクションを生成する。
この設計により、一貫性しきい値を調整することで幻覚リスクを制御できることを実証する。
- 参考スコア(独自算出の注目度): 2.4473125937874802
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are promising tools for supporting security management tasks, such as incident response planning. However, their unreliability and tendency to hallucinate remain significant challenges. In this paper, we address these challenges by introducing a principled framework for using an LLM as decision support in security management. Our framework integrates the LLM in an iterative loop where it generates candidate actions that are checked for consistency with system constraints and lookahead predictions. When consistency is low, we abstain from the generated actions and instead collect external feedback, e.g., by evaluating actions in a digital twin. This feedback is then used to refine the candidate actions through in-context learning (ICL). We prove that this design allows to control the hallucination risk by tuning the consistency threshold. Moreover, we establish a bound on the regret of ICL under certain assumptions. To evaluate our framework, we apply it to an incident response use case where the goal is to generate a response and recovery plan based on system logs. Experiments on four public datasets show that our framework reduces recovery times by up to 30% compared to frontier LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インシデント対応計画のようなセキュリティ管理タスクをサポートするための有望なツールである。
しかし、その信頼性と幻覚の傾向は依然として重大な課題である。
本稿では,LLMをセキュリティ管理における意思決定支援として使用するための原則的枠組みを導入することにより,これらの課題に対処する。
我々のフレームワークは、LLMを反復ループに統合し、システム制約やルックアヘッド予測との整合性を確認するための候補アクションを生成する。
一貫性が低い場合には、生成されたアクションを中断し、デジタルツイン内のアクションを評価することで外部からのフィードバックを収集する。
このフィードバックは、コンテキスト内学習(ICL)を通じて候補アクションを洗練するために使用される。
この設計により、一貫性しきい値を調整することで幻覚リスクを制御できることを実証する。
さらに、ある前提の下では、ICLの後悔に限界を定めている。
本フレームワークを評価するために,システムログに基づいて応答・回復計画を生成することを目標とするインシデント応答ユースケースに適用する。
4つの公開データセットの実験により、我々のフレームワークはフロンティアLSMと比較して回復時間を最大30%短縮することが示された。
関連論文リスト
- MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks [17.598413159363393]
現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
本稿では,大規模言語モデルにおける暗黙的リスクの解消と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワークMENTORを提案する。
我々は、ドメイン固有のリスク識別を強化するために、教育、財務、管理にまたがる9000のリスククエリをサポートするデータセットをリリースする。
論文 参考訳(メタデータ) (2025-11-10T13:51:51Z) - RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts [39.58550043591753]
外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。
LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
論文 参考訳(メタデータ) (2025-10-06T19:20:43Z) - Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs [1.090218572228214]
本研究では,LLMをベースとしたReActフレームワークの性能向上のための構造化例の可能性について検討した。
本稿では、最適ゴールパス(G型)、情報ノードパス(E型)、ステップバイステップの最適決定シーケンス(L型)の3つのカテゴリの例を生成する、構造化された解処理パイプラインを提案する。
L型の例は、明確化要求と全体的なアクションステップをわずかに削減するが、一貫性のある改善は得られない。
論文 参考訳(メタデータ) (2025-08-20T09:36:53Z) - Incident Response Planning Using a Lightweight Large Language Model with Reduced Hallucination [5.137733470931303]
この課題を軽減するための有望なアプローチは、インシデントハンドリング中にセキュリティオペレータを支援するために、大きな言語モデル(LLM)に埋め込まれたセキュリティ知識を使用することである。
最近の研究はこのアプローチの可能性を示しているが、現在の手法は主にフロンティアLLMの迅速な工学に基づいている。
幻覚の減少を伴うインシデント対応計画にLLMを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-07T09:23:25Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。