論文の概要: Safer Policy Compliance with Dynamic Epistemic Fallback
- arxiv url: http://arxiv.org/abs/2601.23094v1
- Date: Fri, 30 Jan 2026 15:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.534919
- Title: Safer Policy Compliance with Dynamic Epistemic Fallback
- Title(参考訳): ダイナミック・エピステミック・フォールバックによる安全政策の適合性
- Authors: Joseph Marvin Imperial, Harish Tayyar Madabushi,
- Abstract要約: 本研究では,LLMの誤認攻撃に対する予測時防御を改善するために,ダイナミック・エピステマティック・フォールバック(DEF)を導入する。
DEFはLLMに対して、不整合を宣言し、拒絶し、混乱した政策文書に遭遇する際の知識を拒絶するよう訴えている。
- 参考スコア(独自算出の注目度): 12.671657542087624
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans develop a series of cognitive defenses, known as epistemic vigilance, to combat risks of deception and misinformation from everyday interactions. Developing safeguards for LLMs inspired by this mechanism might be particularly helpful for their application in high-stakes tasks such as automating compliance with data privacy laws. In this paper, we introduce Dynamic Epistemic Fallback (DEF), a dynamic safety protocol for improving an LLM's inference-time defenses against deceptive attacks that make use of maliciously perturbed policy texts. Through various levels of one-sentence textual cues, DEF nudges LLMs to flag inconsistencies, refuse compliance, and fallback to their parametric knowledge upon encountering perturbed policy texts. Using globally recognized legal policies such as HIPAA and GDPR, our empirical evaluations report that DEF effectively improves the capability of frontier LLMs to detect and refuse perturbed versions of policies, with DeepSeek-R1 achieving a 100% detection rate in one setting. This work encourages further efforts to develop cognitively inspired defenses to improve LLM robustness against forms of harm and deception that exploit legal artifacts.
- Abstract(参考訳): 人間は、日常の相互作用から虚偽や誤報のリスクに対処するために、てんかん予防として知られる一連の認知的防御を開発する。
このメカニズムにインスパイアされたLLMのセーフガードの開発は、データプライバシ法への準拠の自動化など、高度なタスクにおける彼らのアプリケーションに特に役立ちます。
本稿では,LLMの不正攻撃に対する推論時防御を改善するための動的安全プロトコルであるDynamic Epistemic Fallback(DEF)を紹介する。
様々なレベルの一文テキストの手がかりを通じて、DEFはLLMに不整合のフラグを付け、コンプライアンスを拒否し、混乱したポリシーのテキストに遭遇する際のパラメトリック知識へのフォールバックを訴える。
HIPAA や GDPR などの国際的に認められた法的政策を用いて,DeF がフロンティア LLM の摂動型ポリシーの検出・拒否能力を効果的に改善し,DeepSeek-R1 は1つの設定で100%検出率を達成したことを実証的な評価で報告した。
この研究は、法的アーティファクトを悪用する害や詐欺に対するLSMの堅牢性を改善するために、認知にインスパイアされた防衛を開発するためのさらなる努力を奨励する。
関連論文リスト
- MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks [17.598413159363393]
現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
本稿では,大規模言語モデルにおける暗黙的リスクの解消と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワークMENTORを提案する。
我々は、ドメイン固有のリスク識別を強化するために、教育、財務、管理にまたがる9000のリスククエリをサポートするデータセットをリリースする。
論文 参考訳(メタデータ) (2025-11-10T13:51:51Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z) - LLM Access Shield: Domain-Specific LLM Framework for Privacy Policy Compliance [2.2022550150705804]
大規模言語モデル(LLM)は、金融、教育、ガバナンスといった分野でますます適用されてきている。
LLMインタラクションにおけるポリシー遵守とリスク軽減のためのセキュリティフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:30:37Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification [17.500701903902094]
大規模言語モデル(LLM)は、有害な応答を誘発するクラフトプロンプトを使用するジェイルブレイク攻撃に対して脆弱である。
本稿では,LLMを微調整して生成したコンテンツを段階的に解毒する,堅牢な防衛フレームワークであるDEEPALIGNを提案する。
論文 参考訳(メタデータ) (2025-03-14T08:32:12Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。