論文の概要: RiskAtlas: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation
- arxiv url: http://arxiv.org/abs/2601.04740v1
- Date: Thu, 08 Jan 2026 09:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.124508
- Title: RiskAtlas: Exposing Domain-Specific Risks in LLMs through Knowledge-Graph-Guided Harmful Prompt Generation
- Title(参考訳): RiskAtlas:知識グラフによるハーモフル・プロンプト生成によるLLMのドメイン特化リスクの抽出
- Authors: Huawei Zheng, Xinqi Jiang, Sen Yang, Shouling Ji, Yingcai Wu, Dazhen Deng,
- Abstract要約: 大規模言語モデル(LLM)は、金融や医療といった専門分野にますます適用されている。
本稿では、知識グラフ誘導による有害なプロンプト生成を行い、二重パス難読化書き換えを適用するエンドツーエンドフレームワークを提案する。
このフレームワークは、強いドメイン関連性と暗黙性を組み合わせた高品質なデータセットを生成する。
- 参考スコア(独自算出の注目度): 53.47466016688839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied in specialized domains such as finance and healthcare, where they introduce unique safety risks. Domain-specific datasets of harmful prompts remain scarce and still largely rely on manual construction; public datasets mainly focus on explicit harmful prompts, which modern LLM defenses can often detect and refuse. In contrast, implicit harmful prompts-expressed through indirect domain knowledge-are harder to detect and better reflect real-world threats. We identify two challenges: transforming domain knowledge into actionable constraints and increasing the implicitness of generated harmful prompts. To address them, we propose an end-to-end framework that first performs knowledge-graph-guided harmful prompt generation to systematically produce domain-relevant prompts, and then applies dual-path obfuscation rewriting to convert explicit harmful prompts into implicit variants via direct and context-enhanced rewriting. This framework yields high-quality datasets combining strong domain relevance with implicitness, enabling more realistic red-teaming and advancing LLM safety research. We release our code and datasets at GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融や医療といった専門分野に適用され、ユニークな安全リスクが導入されている。
有害なプロンプトのドメイン固有のデータセットは依然として少なく、手作業による構築に大きく依存している。
対照的に、間接的なドメイン知識を通じて表現される暗黙的な有害なプロンプトは、現実世界の脅威を検出し、より良く反映することが困難である。
ドメイン知識を実行可能な制約に変換することと、生成された有害なプロンプトの暗黙性を高めることの2つの課題を特定します。
そこで本研究では,まず知識グラフを用いた有害なプロンプト生成を行い,ドメイン関連プロンプトを体系的に生成し,次いで,暗黙的な有害なプロンプトを暗黙の変種に変換するための2経路難読化書き換え手法を提案する。
このフレームワークは、強いドメイン関連性と暗黙性を組み合わせた高品質なデータセットを生成し、より現実的な再チーム化とLLM安全性研究の進展を可能にする。
コードとデータセットはGitHubでリリースしています。
関連論文リスト
- Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。
ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T19:10:08Z) - RAG Security and Privacy: Formalizing the Threat Model and Attack Surface [4.823988025629304]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)と外部文書検索を組み合わせて、より正確で基礎的な応答を生成する自然言語処理における新興のアプローチである。
既存の研究では、RAGがトレーニングデータ記憶や敵対的プロンプトを通じて機密情報を漏洩し、RAGシステムがこれらの脆弱性の多くを継承していることが示されている。
これらのリスクにもかかわらず、現在、RAGシステムの脅威状況を定義する公式なフレームワークは存在しない。
論文 参考訳(メタデータ) (2025-09-24T17:11:35Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures [17.9033567125575]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされ、セキュリティに対する懸念が高まっている。
ジェイルブレイク攻撃は、過度に有害なクエリの下での失敗を浮き彫りにするが、彼らは重大なリスクを見落としている。
我々は,高リスク領域を明らかにすることで,出力の事実性と入力の無害性に基づいて,構造化された二次的な視点でLLMリスク景観を体系的に再構築する。
論文 参考訳(メタデータ) (2025-06-09T03:52:43Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - PILLAR: an AI-Powered Privacy Threat Modeling Tool [2.2366638308792735]
PILLARは、Large Language ModelsとLINDDUNフレームワークを統合して、プライバシ脅威モデリングの合理化と強化を行う新しいツールである。
PILLARは、DFDの生成、脅威の分類、リスクの優先順位付けなど、LINDDUNプロセスの重要な部分を自動化する。
論文 参考訳(メタデータ) (2024-10-11T12:13:03Z) - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。
提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。
さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。