論文の概要: Security in LLM-as-a-Judge: A Comprehensive SoK
- arxiv url: http://arxiv.org/abs/2603.29403v1
- Date: Tue, 31 Mar 2026 08:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.33829
- Title: Security in LLM-as-a-Judge: A Comprehensive SoK
- Title(参考訳): LLM-as-a-Judgeのセキュリティ: 総合的なSoK
- Authors: Aiman Almasoud, Antony Anju, Marco Arazzi, Mert Cihangiroglu, Vignesh Kumar Kembu, Serena Nicolazzo, Antonino Nocera, Vinod P., Saraga Sakthidharan,
- Abstract要約: 本稿では,LLM-as-a-Judgeシステムのセキュリティ面に着目した最初のSoK(Systematization of Knowledge)を提案する。
本研究は,LLM-as-a-Judgeがセキュリティの現場で果たす役割に基づいて,最近の研究を組織する分類法を提案する。
LLMに基づく評価フレームワークの重大な脆弱性と,その堅牢性と信頼性を向上させるための有望な方向性を明らかにした。
- 参考スコア(独自算出の注目度): 3.5168742057928246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge (LaaJ) is a novel paradigm in which powerful language models are used to assess the quality, safety, or correctness of generated outputs. While this paradigm has significantly improved the scalability and efficiency of evaluation processes, it also introduces novel security risks and reliability concerns that remain largely unexplored. In particular, LLM-based judges can become both targets of adversarial manipulation and instruments through which attacks are conducted, potentially compromising the trustworthiness of evaluation pipelines. In this paper, we present the first Systematization of Knowledge (SoK) focusing on the security aspects of LLM-as-a-Judge systems. We perform a comprehensive literature review across major academic databases, analyzing 863 works and selecting 45 relevant studies published between 2020 and 2026. Based on this study, we propose a taxonomy that organizes recent research according to the role played by LLM-as-a-Judge in the security landscape, distinguishing between attacks targeting LaaJ systems, attacks performed through LaaJ, defenses leveraging LaaJ for security purposes, and applications where LaaJ is used as an evaluation strategy in security-related domains. We further provide a comparative analysis of existing approaches, highlighting current limitations, emerging threats, and open research challenges. Our findings reveal significant vulnerabilities in LLM-based evaluation frameworks, as well as promising directions for improving their robustness and reliability. Finally, we outline key research opportunities that can guide the development of more secure and trustworthy LLM-as-a-Judge systems.
- Abstract(参考訳): LLM-as-a-Judge (LaaJ) は、出力の品質、安全性、正確性を評価するために強力な言語モデルを使用する新しいパラダイムである。
このパラダイムは評価プロセスのスケーラビリティと効率を大幅に改善しましたが、新たなセキュリティリスクや信頼性に関する懸念も生まれています。
特に、LSMベースの審査員は、敵の操作と攻撃を行う機器の両方の標的となり、評価パイプラインの信頼性を損なう可能性がある。
本稿では,LLM-as-a-Judgeシステムのセキュリティ面に着目した最初のSoK(Systematization of Knowledge)を提案する。
我々は、主要な学術データベースにわたる総合的な文献レビューを行い、853の著作を分析し、2020年から2026年の間に発行された45の関連研究を選定した。
本研究では,LaJシステムに対する攻撃,LaaJによる攻撃,LaaJをセキュリティ目的に活用する防衛,セキュリティ関連領域における評価戦略としてLaaJを使用するアプリケーションとを区別し,LLM-as-a-Judgeがセキュリティ現場で果たす役割に基づいて最近の研究を組織する分類法を提案する。
さらに、既存のアプローチの比較分析を行い、現在の制限、新たな脅威、オープンな研究課題を強調します。
LLMに基づく評価フレームワークの重大な脆弱性と,その堅牢性と信頼性を向上させるための有望な方向性を明らかにした。
最後に、より安全で信頼性の高いLCM-as-a-Judgeシステムの開発を導くための重要な研究機会を概説する。
関連論文リスト
- LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - A Survey on LLM-as-a-Judge [30.43454909367111]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。
LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文 参考訳(メタデータ) (2024-11-23T16:03:35Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。