論文の概要: Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10690v1
- Date: Wed, 12 Mar 2025 01:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:17.842348
- Title: Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language Models
- Title(参考訳): Battling Misinformation:オープンソースの大規模言語モデルにおける逆相性に関する実証的研究
- Authors: Shahnewaz Karim Sakib, Anindya Bijoy Das, Shibbir Ahmed,
- Abstract要約: 相手の事実性とは、相手が入力のプロンプトに誤報を意図的に挿入することを指す。
敵対的信頼の3つの階層は、強い自信、適度な自信、限られた信頼の3つと考えられている。
実験の結果、LLaMA 3.1 (8B) は敵の入力を検出できるが、Falcon (7B) は比較的低い性能を示した。
- 参考スコア(独自算出の注目度): 3.1406146587437904
- License:
- Abstract: Adversarial factuality refers to the deliberate insertion of misinformation into input prompts by an adversary, characterized by varying levels of expressed confidence. In this study, we systematically evaluate the performance of several open-source large language models (LLMs) when exposed to such adversarial inputs. Three tiers of adversarial confidence are considered: strongly confident, moderately confident, and limited confidence. Our analysis encompasses eight LLMs: LLaMA 3.1 (8B), Phi 3 (3.8B), Qwen 2.5 (7B), Deepseek-v2 (16B), Gemma2 (9B), Falcon (7B), Mistrallite (7B), and LLaVA (7B). Empirical results indicate that LLaMA 3.1 (8B) exhibits a robust capability in detecting adversarial inputs, whereas Falcon (7B) shows comparatively lower performance. Notably, for the majority of the models, detection success improves as the adversary's confidence decreases; however, this trend is reversed for LLaMA 3.1 (8B) and Phi 3 (3.8B), where a reduction in adversarial confidence corresponds with diminished detection performance. Further analysis of the queries that elicited the highest and lowest rates of successful attacks reveals that adversarial attacks are more effective when targeting less commonly referenced or obscure information.
- Abstract(参考訳): 逆の事実性(英: adversarial factuality)とは、相手が入力プロンプトに誤報を意図的に挿入することを指す。
本研究では,複数のオープンソースの大規模言語モデル (LLM) の性能評価を行った。
敵対的信頼の3つの階層は、強い自信、適度な自信、限られた信頼の3つと考えられている。
LLaMA 3.1 (8B), Phi 3 (3.8B), Qwen 2.5 (7B), Deepseek-v2 (16B), Gemma2 (9B), Falcon (7B), Mistrallite (7B), LLaVA (7B) である。
実験の結果、LLaMA 3.1 (8B) は敵の入力を検出できるが、Falcon (7B) は比較的低い性能を示した。
特に、ほとんどのモデルでは、敵の信頼度が低下するにつれて検出成功が向上するが、この傾向はLLaMA 3.1 (8B) と Phi 3 (3.8B) で逆転し、敵の信頼度が低下した検出性能と一致する。
攻撃の成功率が最も高く、最も低いクエリのさらなる分析により、あまり一般的に参照されていない情報や不明瞭な情報をターゲットにした場合、敵攻撃の方が効果的であることが判明した。
関連論文リスト
- Interpretable Failure Detection with Human-Level Concepts [9.086637005449672]
この研究は、モデルが失敗したときを確実に検出し、理由を透過的に解釈する、という、2つの目的のために人間レベルの概念を活用する革新的な戦略を導入している。
入力画像に対する概念アクティベーションの順序付けに基づく簡易かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:19:40Z) - Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。
勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文 参考訳(メタデータ) (2024-12-18T10:49:41Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。