Fugu-MT 論文翻訳(概要): Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language Models

論文の概要: Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language Models

arxiv url: http://arxiv.org/abs/2503.10690v1
Date: Wed, 12 Mar 2025 01:53:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:28.953949
Title: Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language Models
Title（参考訳）: Battling Misinformation:オープンソースの大規模言語モデルにおける逆相性に関する実証的研究
Authors: Shahnewaz Karim Sakib, Anindya Bijoy Das, Shibbir Ahmed,
Abstract要約: 相手の事実性とは、相手が入力のプロンプトに誤報を意図的に挿入することを指す。敵対的信頼の3つの階層は、強い自信、適度な自信、限られた信頼の3つと考えられている。実験の結果、LLaMA 3.1 (8B) は敵の入力を検出できるが、Falcon (7B) は比較的低い性能を示した。
参考スコア（独自算出の注目度）: 3.1406146587437904
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adversarial factuality refers to the deliberate insertion of misinformation into input prompts by an adversary, characterized by varying levels of expressed confidence. In this study, we systematically evaluate the performance of several open-source large language models (LLMs) when exposed to such adversarial inputs. Three tiers of adversarial confidence are considered: strongly confident, moderately confident, and limited confidence. Our analysis encompasses eight LLMs: LLaMA 3.1 (8B), Phi 3 (3.8B), Qwen 2.5 (7B), Deepseek-v2 (16B), Gemma2 (9B), Falcon (7B), Mistrallite (7B), and LLaVA (7B). Empirical results indicate that LLaMA 3.1 (8B) exhibits a robust capability in detecting adversarial inputs, whereas Falcon (7B) shows comparatively lower performance. Notably, for the majority of the models, detection success improves as the adversary's confidence decreases; however, this trend is reversed for LLaMA 3.1 (8B) and Phi 3 (3.8B), where a reduction in adversarial confidence corresponds with diminished detection performance. Further analysis of the queries that elicited the highest and lowest rates of successful attacks reveals that adversarial attacks are more effective when targeting less commonly referenced or obscure information.
Abstract（参考訳）: 逆の事実性(英: adversarial factuality)とは、相手が入力プロンプトに誤報を意図的に挿入することを指す。本研究では,複数のオープンソースの大規模言語モデル (LLM) の性能評価を行った。敵対的信頼の3つの階層は、強い自信、適度な自信、限られた信頼の3つと考えられている。 LLaMA 3.1 (8B), Phi 3 (3.8B), Qwen 2.5 (7B), Deepseek-v2 (16B), Gemma2 (9B), Falcon (7B), Mistrallite (7B), LLaVA (7B) である。実験の結果、LLaMA 3.1 (8B) は敵の入力を検出できるが、Falcon (7B) は比較的低い性能を示した。特に、ほとんどのモデルでは、敵の信頼度が低下するにつれて検出成功が向上するが、この傾向はLLaMA 3.1 (8B) と Phi 3 (3.8B) で逆転し、敵の信頼度が低下した検出性能と一致する。攻撃の成功率が最も高く、最も低いクエリのさらなる分析により、あまり一般的に参照されていない情報や不明瞭な情報をターゲットにした場合、敵攻撃の方が効果的であることが判明した。

関連論文リスト

Fairness is Not Silence: Unmasking Vacuous Neutrality in Small Language Models [10.20777791785117]
オンデバイスおよびリソース制約のあるデプロイメントのためのSLM(Small Language Models)は、倫理的リスクに対する私たちの理解を大きく上回っています。 0.5から50億のパラメータにまたがる命令調整SLMの大規模監査を行った。ゼロショットプロンプト下でのBBQベンチマークを用いて、あいまいで曖昧な文脈における実用性と公平性の両方を分析する。
論文参考訳（メタデータ） (2025-06-10T06:21:09Z)
Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks [38.04549194339918]
本稿では,大規模言語モデル (LLM) が,敵対的攻撃の存在下で自動レビュアーとして使用されることのロバスト性について検討する。テキスト操作はLLM評価を歪ませる可能性があるため,本評価は重大な脆弱性を明らかにする。我々の発見は、学術コミュニケーションの完全性よりも、AIの強化を確実にするために、敵対的リスクに対処することの重要性を強調した。
論文参考訳（メタデータ） (2025-06-08T16:57:38Z)
Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文参考訳（メタデータ） (2025-05-30T09:02:07Z)
Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文参考訳（メタデータ） (2025-05-19T16:51:12Z)
When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。 1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文参考訳（メタデータ） (2025-04-01T02:45:02Z)
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs [14.753476265224245]
大規模言語モデル(LLM)エージェント(MoA)はAlpacaEval 2.0のような著名なベンチマークで最先端のパフォーマンスを達成する。本研究は,LLM剤に対するMoAの堅牢性に関する初の包括的研究である。
論文参考訳（メタデータ） (2025-03-07T14:46:39Z)
Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文参考訳（メタデータ） (2024-12-18T10:49:41Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文参考訳（メタデータ） (2024-06-20T04:35:59Z)
Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文参考訳（メタデータ） (2024-02-21T18:55:20Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文参考訳（メタデータ） (2023-11-15T23:33:07Z)
Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文参考訳（メタデータ） (2023-10-11T15:56:00Z)
PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文参考訳（メタデータ） (2023-06-07T15:37:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。