論文の概要: SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use
- arxiv url: http://arxiv.org/abs/2505.17332v1
- Date: Thu, 22 May 2025 22:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.725552
- Title: SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use
- Title(参考訳): SweEval: LLMは本当に不適当か? 企業利用の限界をテストするための安全ベンチマーク
- Authors: Hitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae,
- Abstract要約: SweEvalは、トーン(正か負か)とコンテキスト(形式か非公式か)の異なる実世界のシナリオをシミュレートするベンチマークである。
プロンプトは、タスクを完了している間に、特定の誓約語を含むようモデルに明示的に指示する。
このベンチマークは、LLMがそのような不適切な指示に従うか否かを評価し、倫理的枠組み、文化的ニュアンス、言語理解能力との整合性を評価する。
- 参考スコア(独自算出の注目度): 6.563979395482773
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enterprise customers are increasingly adopting Large Language Models (LLMs) for critical communication tasks, such as drafting emails, crafting sales pitches, and composing casual messages. Deploying such models across different regions requires them to understand diverse cultural and linguistic contexts and generate safe and respectful responses. For enterprise applications, it is crucial to mitigate reputational risks, maintain trust, and ensure compliance by effectively identifying and handling unsafe or offensive language. To address this, we introduce SweEval, a benchmark simulating real-world scenarios with variations in tone (positive or negative) and context (formal or informal). The prompts explicitly instruct the model to include specific swear words while completing the task. This benchmark evaluates whether LLMs comply with or resist such inappropriate instructions and assesses their alignment with ethical frameworks, cultural nuances, and language comprehension capabilities. In order to advance research in building ethically aligned AI systems for enterprise use and beyond, we release the dataset and code: https://github.com/amitbcp/multilingual_profanity.
- Abstract(参考訳): 企業顧客は、メールの起草、販売ピッチの作成、カジュアルメッセージの作曲など、重要なコミュニケーションタスクにLarge Language Models(LLM)を採用するようになってきている。
このようなモデルを異なる領域に展開するには、さまざまな文化的・言語的文脈を理解し、安全で尊敬に値する応答を生成する必要がある。
企業アプリケーションにとって、評判のリスクを軽減し、信頼を維持し、安全でない言語や攻撃的な言語を効果的に識別し、扱い、コンプライアンスを確保することが不可欠である。
SweEvalは、実世界のシナリオを、トーン(正または負)とコンテキスト(形式または非公式)のバリエーションでシミュレートするベンチマークである。
プロンプトは、タスクを完了している間に、特定の誓約語を含むようモデルに明示的に指示する。
このベンチマークは、LLMがそのような不適切な指示に従うか否かを評価し、倫理的枠組み、文化的ニュアンス、言語理解能力との整合性を評価する。
企業利用などのために倫理的に整合したAIシステムを構築するための研究を進めるために、データセットとコードを公開します。
関連論文リスト
- Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [9.162876771766513]
本稿では,言語構造とユーザ人口統計に基づく,制御された現実的なプロンプトフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは、セマンティック、スタイリスティック、命令追従の基準を組み合わせることで、パラフレーズの品質を保証する。
この結果から,大規模言語モデルにおいて,より代表的で構造化されたアプローチの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-06T14:17:30Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。