論文の概要: AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains
- arxiv url: http://arxiv.org/abs/2601.15511v1
- Date: Wed, 21 Jan 2026 22:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.437995
- Title: AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains
- Title(参考訳): AdversaRiskQA: ハイリスクドメインの逆数係数ベンチマーク
- Authors: Adam Szelestey, Sofie van Engelen, Tianhao Huang, Justin Snelders, Qintao Zeng, Songgaojun Deng,
- Abstract要約: 大型言語モデル(LLM)における幻覚は、誤報の拡散と公衆信頼の低下に寄与する。
本稿では,最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介する。
我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
- 参考スコア(独自算出の注目度): 3.721111684544962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination in large language models (LLMs) remains an acute concern, contributing to the spread of misinformation and diminished public trust, particularly in high-risk domains. Among hallucination types, factuality is crucial, as it concerns a model's alignment with established world knowledge. Adversarial factuality, defined as the deliberate insertion of misinformation into prompts with varying levels of expressed confidence, tests a model's ability to detect and resist confidently framed falsehoods. Existing work lacks high-quality, domain-specific resources for assessing model robustness under such adversarial conditions, and no prior research has examined the impact of injected misinformation on long-form text factuality. To address this gap, we introduce AdversaRiskQA, the first verified and reliable benchmark systematically evaluating adversarial factuality across Health, Finance, and Law. The benchmark includes two difficulty levels to test LLMs' defensive capabilities across varying knowledge depths. We propose two automated methods for evaluating the adversarial attack success and long-form factuality. We evaluate six open- and closed-source LLMs from the Qwen, GPT-OSS, and GPT families, measuring misinformation detection rates. Long-form factuality is assessed on Qwen3 (30B) under both baseline and adversarial conditions. Results show that after excluding meaningless responses, Qwen3 (80B) achieves the highest average accuracy, while GPT-5 maintains consistently high accuracy. Performance scales non-linearly with model size, varies by domains, and gaps between difficulty levels narrow as models grow. Long-form evaluation reveals no significant correlation between injected misinformation and the model's factual output. AdversaRiskQA provides a valuable benchmark for pinpointing LLM weaknesses and developing more reliable models for high-stakes applications.
- Abstract(参考訳): 大型言語モデル(LLM)における幻覚は依然として深刻な関心事であり、特に高リスク領域において、誤情報の普及と公衆信頼の低下に寄与している。
幻覚のタイプの中では、モデルと確立した世界知識との整合性に関するため、事実性が重要である。
逆の事実性(英: Adversarial factuality)は、偽情報の意図的な挿入として定義され、様々なレベルの信頼が表現されるプロンプトとして、自信に満ちた虚偽を検知し、抵抗するモデルの能力をテストする。
既存の作業には、そのような逆境条件下でモデルロバスト性を評価するための高品質なドメイン固有のリソースが欠如しており、長期テキストの事実性に対するインジェクト誤報の影響について以前の研究は行われていない。
このギャップに対処するために、健康、財務、法をまたいだ敵の事実を体系的に評価する最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介します。
このベンチマークには、LLMの防御能力を様々な知識深度でテストする2つの難易度が含まれている。
本稿では,敵対的攻撃の成功と長期的事実性を評価するための2つの自動手法を提案する。
我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
Qwen3 (30B) では, ベースライン条件と逆条件の両方で, 長期的事実性を評価する。
その結果、Qwen3 (80B) は無意味応答を除外した後、高い平均精度を達成し、GPT-5 は一貫して高い精度を維持した。
パフォーマンスは、モデルのサイズと非直線的にスケールし、ドメインによって異なり、モデルの増大に伴って困難レベル間のギャップが狭まる。
ロングフォーム評価では、インジェクトされた誤情報とモデルの実際の出力との間に有意な相関は示さない。
AdversaRiskQA は LLM の弱点を指摘し、より信頼性の高いアプリケーションを開発するための貴重なベンチマークを提供する。
関連論文リスト
- Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data [42.23843583401247]
実世界の設定では、不完全な情報や不確実性の下での理由を言語モデルで補う必要がある。
OpenEstimateは、数値推定のLMを評価するためのベンチマークである。
LM-elicited priors は不正確で過度に信頼されることが多い。
論文 参考訳(メタデータ) (2025-10-16T19:35:22Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Epistemic Integrity in Large Language Models [10.50127599111102]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。
本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。
大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-10T17:10:13Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。