論文の概要: Steering LLM Viewpoints through Fabricated Evidence Injection
- arxiv url: http://arxiv.org/abs/2606.06244v1
- Date: Thu, 04 Jun 2026 14:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.868286
- Title: Steering LLM Viewpoints through Fabricated Evidence Injection
- Title(参考訳): 加工エビデンスインジェクションによるLCM視点のステアリング
- Authors: Xi Yang, Chang Liu, Zhenglin Huang, Haoran Li, Weiming Zhang, Jian Weng, Yangqiu Song,
- Abstract要約: 提案手法では,2段階のアタック・フレームワークを導入し,まず構成された有理数で誤解を招く文を再パッケージし,関連する問合せに応答する上で,これらの視点を組み込むことを目標LLMに指示する。
BBQ、ToxiGen、および我々の特別なデータセットの実験により、外部安全分類器を持たない商用LLMは、非常に脆弱であることが判明した。
そこで我々は,複数の防衛戦略について検討し,その中のひとつとして,gpt-oss-safeguardが81%の検知率を達成した。
- 参考スコア(独自算出の注目度): 61.22850755490993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As chatbots increasingly influence daily decision-making, their potential to produce misleading responses poses substantial risks to users. This paper investigates a critical cognitive vulnerability in LLMs: their tendency to uncritically trust external context when presented with fabricated evidence bearing markers of credibility. We introduce Ghostwriter, a two-phase attack framework that first repackages misleading statements with fabricated rationales, then instruct target LLMs to incorporate these viewpoints when responding to relevant queries. Experiments on BBQ, ToxiGen, and our specialized dataset reveal that commercial LLMs without external safety classifiers remain highly vulnerable, while even frontier classifier-guarded models (e.g., GPT-5.4) reduce but do not eliminate the attack. Building on this, we explore multiple defense strategies, among which a tailored safety policy enables gpt-oss-safeguard to achieve 81% detection rate.
- Abstract(参考訳): チャットボットが日々の意思決定に影響を及ぼすにつれ、誤解を招く反応を生み出す可能性はユーザーにとって重大なリスクをもたらす。
本稿では,LCMにおける批判的認知的脆弱性について考察する。信頼のマーカーを具備した偽証を提示する際,外的文脈を非批判的に信頼する傾向である。
本稿では,2段階の攻撃フレームワークであるGhostwriterを紹介した。このフレームワークは,まず,生成した有理数で誤解を招く文を再パッケージし,関連するクエリに応答するときに,これらの視点を組み込むよう,LLMに指示する。
BBQ,ToxiGen,および当社の特殊なデータセットによる実験では,外部安全分類器を持たない商用LCMは高い脆弱性を保ちながら,フロンティア分類器で保護されたモデル(例: GPT-5.4)でさえも攻撃を排除していないことが明らかになった。
本研究は,gpt-oss-safeguardが検出率81%を達成するための安全策として,複数の防衛戦略について検討する。
関連論文リスト
- Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents [43.303548143175256]
本研究では,リスクに対するエージェントの感受性を定量的に評価する,会話プライバシのための監査フレームワークを提案する。
CMPL(Conversational Manipulation for Privacy Leakage)フレームワークは、厳格なプライバシー命令を強制するエージェントをストレステストするために設計されている。
論文 参考訳(メタデータ) (2025-06-11T20:47:37Z) - Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks [23.782566331783134]
我々は3つのカテゴリ、61の特定の有害なカテゴリからの1525の質問、13の人気のあるLCMの10の最先端のジェイルブレイク戦略に焦点を当てた。
攻撃成功率(ASR)、毒性スコア(Toxicity Score)、Fluency(Fluency)、Token Length(Token Length)、文法エラー(Grammatical Errors)などの多次元指標を用いて、ジェイルブレイク下でのLLMのアウトプットを徹底的に評価する。
モデル,攻撃戦略,有害コンテンツの種類,および評価指標間の相関関係について検討し,多面的評価フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T01:58:03Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。