論文の概要: Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing
- arxiv url: http://arxiv.org/abs/2605.10146v1
- Date: Mon, 11 May 2026 07:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.619626
- Title: Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing
- Title(参考訳): 悪意ある知識編集における知識集約推論の安全性リスクのベンチマーク
- Authors: Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen,
- Abstract要約: 大規模言語モデル(LLM)は知識集約推論をサポートするために知識編集に依存している。
悪意のある知識編集は、一般的な能力を保ちながら、確実に不正または安全でない推論を誘導することができる。
本稿では,悪意のある知識編集の下での知識集約推論の安全性リスクを体系的に評価するベンチマークであるEditRisk-Benchを提案する。
- 参考スコア(独自算出の注目度): 11.663236025824121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly rely on knowledge editing to support knowledge-intensive reasoning, but this flexibility also introduces critical safety risks: adversaries can inject malicious or misleading knowledge that corrupts downstream reasoning and leads to harmful outcomes. Existing knowledge editing benchmarks primarily focus on editing efficacy and lack a unified framework for systematically evaluating the safety implications of edited knowledge on reasoning behavior. To address this gap, we present EditRisk-Bench, a benchmark for systematically evaluating safety risks of knowledge-intensive reasoning under malicious knowledge editing. Unlike prior benchmarks that mainly emphasize edit success, generalization, and locality, EditRisk-Bench focuses on how injected knowledge affects downstream reasoning behavior and reliability. It integrates diverse malicious scenarios, including misinformation, bias, and safety violations, together with multi-level knowledge-intensive reasoning tasks and representative editing strategies within a unified evaluation framework measuring attack effectiveness, reasoning correctness, and side effects. Extensive experiments on both open-source and closed-source LLMs show that malicious knowledge editing can reliably induce incorrect or unsafe reasoning while largely preserving general capabilities, making such risks difficult to detect. We further identify several key factors influencing these risks, including edit scale, knowledge characteristics, and reasoning complexity. EditRisk-Bench provides an extensible testbed for understanding and mitigating safety risks in knowledge editing for LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は知識集約推論をサポートするために知識編集にますます依存しているが、この柔軟性は重要な安全性のリスクも生んでいる。
既存の知識編集ベンチマークは主に編集効率に重点を置いており、推論行動における編集知識の安全性を体系的に評価するための統一された枠組みが欠如している。
このギャップに対処するために、悪意のある知識編集の下で知識集約推論の安全性リスクを体系的に評価するベンチマークであるEditRisk-Benchを提案する。
編集の成功、一般化、局所性を主に重視する以前のベンチマークとは異なり、EditRisk-Benchはインジェクションされた知識が下流の推論行動と信頼性にどのように影響するかに焦点を当てている。
誤情報、偏見、安全違反を含む様々な悪意あるシナリオと、多段階の知識集約推論タスクと、攻撃の有効性、推論正当性、副作用を計測する統一評価フレームワークに代表的編集戦略を統合する。
オープンソースとクローズドソースの両方での大規模な実験では、悪意のある知識の編集が不正確または安全でない推論を確実に引き起こし、一般的な能力を保ちながら、そのようなリスクを検出するのが困難であることを示している。
さらに,これらのリスクに影響を及ぼす要因として,編集スケール,知識特性,推論複雑性などを挙げる。
EditRisk-BenchはLLMの知識編集における安全性リスクを理解し緩和するための拡張可能なテストベッドを提供する。
関連論文リスト
- Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models [80.21037538996553]
本稿では,異なる介入とアライメントによる信頼度向上のための新しいメタ認知フレームワークを提案する。
我々の手法は、知識空間をマスターされた、混乱した、行方不明な領域に分割し、対象とする知識拡大を導くために、内部認知信号を活用する。
我々のフレームワークは、知識能力の向上だけでなく、未知の知識をよりよく区別する認知行動の育成においても、その合理性を検証し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-02-13T15:07:35Z) - Are We Evaluating the Edit Locality of LLM Model Editing Properly? [68.441768731381]
この目的のために既存の特異性評価プロトコルは不十分であることがわかった。
既存の特異度指標は特異度正規化器の強度と弱い相関関係にある。
また、現在のメトリクスには十分な感度が欠けており、異なるメソッドの特異性性能の区別に効果がないこともわかりました。
論文 参考訳(メタデータ) (2026-01-24T07:07:21Z) - TruthfulRAG: Resolving Factual-level Conflicts in Retrieval-Augmented Generation with Knowledge Graphs [10.861331756147477]
本稿では,RAGシステムにおける事実レベルの知識紛争を解決するためにTrathfulRAGを提案する。
TruthfulRAGは、検索されたコンテンツからトリプルを体系的に抽出することで、知識グラフ(KG)を構築する。
大規模な実験により、TrathfulRAGは既存の手法より優れていることが判明した。
論文 参考訳(メタデータ) (2025-11-13T14:49:44Z) - Surgical Knowledge Rewrite in Compact LLMs: An 'Unlearn-then-Learn' Strategy with ($IA^3$) for Localized Factual Modulation and Catastrophic Forgetting Mitigation [0.0]
本稿では,大規模言語モデルにおける正確な知識編集のための新しい「未学習学習戦略」を紹介し,評価する。
2段階のアプローチは、競合する事実を符号化する原因となる特定の内部コンポーネントを特定し、ターゲットとする初期回路ローカライゼーションフェーズによって実現される。
論文 参考訳(メタデータ) (2025-08-09T18:48:25Z) - Revealing and Mitigating Over-Attention in Knowledge Editing [28.950187006528783]
大規模な言語モデルは、幅広いタスクで優れたパフォーマンスを示しています。
しかし、トレーニングデータから学んだ誤った知識のために、いまだに望ましくない誤りを呈している。
知識編集手法は、ごく少数のパラメータを効率的に修正することで、特定のモデルの知識を正確に編集する。
これらの編集手法は、既存の知識や能力が編集によって著しく劣化する特異性障害に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-02-20T18:51:12Z) - UniKnow: A Unified Framework for Reliable Language Model Behavior across Parametric and External Knowledge [14.81530569173485]
パラメトリックおよび外部知識にまたがる信頼性LM動作のための統一フレームワークUniKnowを紹介する。
UniKnowは、知識の衝突、気晴らし、不在状態などの知識シナリオにおける制御された評価を可能にする。
論文 参考訳(メタデータ) (2025-02-19T11:49:23Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。