Fugu-MT 論文翻訳(概要): LLM-Safety Evaluations Lack Robustness

論文の概要: LLM-Safety Evaluations Lack Robustness

arxiv url: http://arxiv.org/abs/2503.02574v1
Date: Tue, 04 Mar 2025 12:55:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:39.537839
Title: LLM-Safety Evaluations Lack Robustness
Title（参考訳）: LLM-Safety Evaluations Lack Robustness
Authors: Tim Beyer, Sophie Xhonneux, Simon Geisler, Gauthier Gidel, Leo Schwinn, Stephan Günnemann,
Abstract要約: 我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
参考スコア（独自算出の注目度）: 58.334290876531036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we argue that current safety alignment research efforts for large language models are hindered by many intertwined sources of noise, such as small datasets, methodological inconsistencies, and unreliable evaluation setups. This can, at times, make it impossible to evaluate and compare attacks and defenses fairly, thereby slowing progress. We systematically analyze the LLM safety evaluation pipeline, covering dataset curation, optimization strategies for automated red-teaming, response generation, and response evaluation using LLM judges. At each stage, we identify key issues and highlight their practical impact. We also propose a set of guidelines for reducing noise and bias in evaluations of future attack and defense papers. Lastly, we offer an opposing perspective, highlighting practical reasons for existing limitations. We believe that addressing the outlined problems in future research will improve the field's ability to generate easily comparable results and make measurable progress.
Abstract（参考訳）: 本稿では,大規模言語モデルに対する現在の安全アライメント研究は,小さなデータセットや方法論的不整合,信頼性の低い評価設定など,多くのノイズ源によって妨げられていることを論じる。これは時として、攻撃や防御を公平に評価し比較することが不可能になり、進歩が遅くなる可能性がある。 LLMの安全性評価パイプラインを体系的に解析し、データセットのキュレーション、自動リピートのための最適化戦略、応答生成、応答評価をLCMの判断者を用いて行う。それぞれの段階で、重要な問題を特定し、その実践的な影響を強調します。また,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを減らすためのガイドラインも提案する。最後に、私たちは反対の視点を提供し、既存の制限の実践的な理由を強調します。我々は、今後の研究で概説された問題に対処することで、簡単に匹敵する結果が得られ、測定可能な進歩がもたらされることを信じている。

関連論文リスト

ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文参考訳（メタデータ） (2025-06-17T10:55:17Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。これは、安全なデプロイメントを保証する上で、大きな課題となる。 PredictaBoardは,新しいベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-02-20T10:52:38Z)
Aspect-Guided Multi-Level Perturbation Analysis of Large Language Models in Automated Peer Review [36.05498398665352]
自動ピアレビューにおいて,大規模言語モデル(LLM)の堅牢性を評価するために,アスペクト誘導多段階摂動フレームワークを提案する。我々のフレームワークは、ピアレビュープロセスペーパー、レビュー、そして、いくつかの品質面における反論の3つの重要な要素における摂動を探求する。
論文参考訳（メタデータ） (2025-02-18T03:50:06Z)
Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文参考訳（メタデータ） (2025-02-17T15:28:40Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。 NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文参考訳（メタデータ） (2024-12-02T20:49:21Z)
Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks [12.893445918647842]
大きな言語モデル(LLM)は、様々な分野において印象的な機能を示しているが、その使用の増加は重要なセキュリティ上の懸念を提起している。この記事では、LLMセキュリティにおける重要な問題に対処する最近の文献をレビューし、正確性、バイアス、コンテンツ検出、攻撃に対する脆弱性に焦点を当てる。
論文参考訳（メタデータ） (2024-09-12T14:42:08Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。