論文の概要: Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment
- arxiv url: http://arxiv.org/abs/2402.14016v1
- Date: Wed, 21 Feb 2024 18:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:08:38.523583
- Title: Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment
- Title(参考訳): LLM-as-a-Judgeのロバストか?
ゼロショットLDM評価におけるユニバーサル・アタックの検討
- Authors: Vyas Raina, Adian Liusie, Mark Gales
- Abstract要約: テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
- 参考スコア(独自算出の注目度): 10.05719021957877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are powerful zero-shot assessors and are
increasingly used in real-world situations such as for written exams or
benchmarking systems. Despite this, no existing work has analyzed the
vulnerability of judge-LLMs against adversaries attempting to manipulate
outputs. This work presents the first study on the adversarial robustness of
assessment LLMs, where we search for short universal phrases that when appended
to texts can deceive LLMs to provide high assessment scores. Experiments on
SummEval and TopicalChat demonstrate that both LLM-scoring and pairwise
LLM-comparative assessment are vulnerable to simple concatenation attacks,
where in particular LLM-scoring is very susceptible and can yield maximum
assessment scores irrespective of the input text quality. Interestingly, such
attacks are transferable and phrases learned on smaller open-source LLMs can be
applied to larger closed-source models, such as GPT3.5. This highlights the
pervasive nature of the adversarial vulnerabilities across different judge-LLM
sizes, families and methods. Our findings raise significant concerns on the
reliability of LLMs-as-a-judge methods, and underscore the importance of
addressing vulnerabilities in LLM assessment methods before deployment in
high-stakes real-world scenarios.
- Abstract(参考訳): 大規模言語モデル(llm)は強力なゼロショット評価器であり、筆記試験やベンチマークシステムなど現実世界の状況でますます使われている。
それにもかかわらず、既存の研究では、出力を操作しようとする敵に対するジャッジllmの脆弱性を分析していない。
本研究は,テキストに付加することでllmを欺き,高い評価スコアを与えることができる短い普遍句を探索する,アセスメントllmの対向的ロバスト性に関する最初の研究である。
SummEval と TopicalChat の実験では、LLM-scoring と LLM-comparative の両方が単純な結合攻撃に対して脆弱であり、特に LLM-scoring は非常に感受性が高く、入力テキストの品質に関わらず最大評価スコアが得られることを示した。
興味深いことに、そのような攻撃は転送可能であり、小さいオープンソース LLM で学んだフレーズは GPT3.5 のような大型のクローズドソースモデルに適用できる。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
本研究は,LLMの信頼性に関する重要な懸念を提起し,LLM評価手法における脆弱性への対処の重要性を明らかにした。
関連論文リスト
- A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Evaluating Large Language Models: A Comprehensive Survey [41.64914110226901]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な能力を示している。
プライベートなデータ漏洩に悩まされたり、不適切で有害なコンテンツや誤解を招く可能性がある。
LLMのキャパシティを効果的に活用し、その安全で有益な開発を確保するためには、厳密で包括的な評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-10-30T17:00:52Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。