論文の概要: On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2507.06489v1
- Date: Wed, 09 Jul 2025 02:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.439245
- Title: On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks
- Title(参考訳): 敵攻撃におけるLDMの言語信頼性のロバスト性について
- Authors: Stephen Obadinma, Xiaodan Zhu,
- Abstract要約: 本研究は, 対人攻撃による言語信頼の堅牢性に関する最初の総合的研究である。
本稿では,摂動法と脱獄法の両方を用いて,言語信頼度を攻撃するための新しい枠組みを提案する。
本研究は,大規模言語モデルにおいて,信頼性表現のためのより堅牢なメカニズムを設計する緊急の必要性を浮き彫りにするものである。
- 参考スコア(独自算出の注目度): 23.95254828487318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust verbal confidence generated by large language models (LLMs) is crucial for the deployment of LLMs to ensure transparency, trust, and safety in human-AI interactions across many high-stakes applications. In this paper, we present the first comprehensive study on the robustness of verbal confidence under adversarial attacks. We introduce a novel framework for attacking verbal confidence scores through both perturbation and jailbreak-based methods, and show that these attacks can significantly jeopardize verbal confidence estimates and lead to frequent answer changes. We examine a variety of prompting strategies, model sizes, and application domains, revealing that current confidence elicitation methods are vulnerable and that commonly used defence techniques are largely ineffective or counterproductive. Our findings underscore the urgent need to design more robust mechanisms for confidence expression in LLMs, as even subtle semantic-preserving modifications can lead to misleading confidence in responses.
- Abstract(参考訳): 大規模言語モデル(LLM)が生み出すロバストな言語信頼は、多くの高度なアプリケーションにわたる人間とAIのインタラクションにおける透明性、信頼性、安全性を保証するため、LLMの展開に不可欠である。
本稿では,敵対的攻撃下での言語信頼の堅牢性に関する最初の総合的研究について述べる。
本研究では,摂動法と脱獄法の両方を用いて,言語信頼度スコアを攻撃するための新たな枠組みを導入し,これらの攻撃が言語信頼度推定を著しく阻害し,頻繁な回答変化をもたらすことを示す。
筆者らは, 各種のプロンプト戦略, モデルサイズ, アプリケーション領域について検討し, 現状の信頼性評価手法は脆弱であり, 一般的に使用される防御技術は, ほとんど効果がないか, あるいは非生産的であることを明らかにした。
この結果から,LLMにおける信頼性表現のためのより堅牢なメカニズムを設計する必要性が示唆された。
関連論文リスト
- Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems [52.57826440085856]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。
LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。
本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:32:57Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,大規模言語モデルの生成に安全性を考慮した推論機構を組み込んだ新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは応答の安全性の指標として安全ピボットトークンを形成する。
R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しつつ全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Enhancing Adversarial Resistance in LLMs with Recursion [7.410680179234572]
本稿では,大規模言語モデルの操作に対する耐性を高めるためのフレームワークを提案する。
複雑で紛らわしい敵のプロンプトの透明性を高めることにより、悪意のある入力のより信頼性の高い検出と防止が可能となる。
論文 参考訳(メタデータ) (2024-12-09T03:34:49Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Adversarial Attacks and Defense for Conversation Entailment Task [0.49157446832511503]
大規模言語モデルは、低コストの敵攻撃に対して脆弱である。
我々は、仮説の真偽を正確に識別するために、変圧器モデルを微調整する。
モデルのロバスト性を高めるために,埋め込み摂動損失法を導入する。
論文 参考訳(メタデータ) (2024-05-01T02:49:18Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。