論文の概要: SafeText: A Benchmark for Exploring Physical Safety in Language Models
- arxiv url: http://arxiv.org/abs/2210.10045v1
- Date: Tue, 18 Oct 2022 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:19:37.800126
- Title: SafeText: A Benchmark for Exploring Physical Safety in Language Models
- Title(参考訳): SafeText: 言語モデルにおける物理的安全性のベンチマーク
- Authors: Sharon Levy, Emily Allaway, Melanie Subbiah, Lydia Chilton, Desmond
Patton, Kathleen McKeown, William Yang Wang
- Abstract要約: テキスト生成およびコモンセンス推論タスク用に設計された各種モデルのコモンセンス物理安全性について検討する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのが困難であることがわかった。
- 参考スコア(独自算出の注目度): 62.810902375154136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding what constitutes safe text is an important issue in natural
language processing and can often prevent the deployment of models deemed
harmful and unsafe. One such type of safety that has been scarcely studied is
commonsense physical safety, i.e. text that is not explicitly violent and
requires additional commonsense knowledge to comprehend that it leads to
physical harm. We create the first benchmark dataset, SafeText, comprising
real-life scenarios with paired safe and physically unsafe pieces of advice. We
utilize SafeText to empirically study commonsense physical safety across
various models designed for text generation and commonsense reasoning tasks. We
find that state-of-the-art large language models are susceptible to the
generation of unsafe text and have difficulty rejecting unsafe advice. As a
result, we argue for further studies of safety and the assessment of
commonsense physical safety in models before release.
- Abstract(参考訳): 安全なテキストを構成するものを理解することは、自然言語処理において重要な問題であり、しばしば有害で安全でないと見なされるモデルのデプロイを防ぐことができる。
あまり研究されていないこの種の安全性の1つは、明確に暴力的ではなく、物理的危害につながると理解するために追加のコモンセンス知識を必要とするテキストである。
私たちは最初のベンチマークデータセットであるsafetextを作成しました。
SafeTextを用いて、テキスト生成やコモンセンス推論タスクのために設計された様々なモデルのコモンセンス物理安全性を実証的に研究する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのも困難である。
その結果、我々は、リリース前のモデルにおける安全性のさらなる研究とコモンセンス物理安全性の評価について議論した。
関連論文リスト
- Emulated Disalignment: Safety Alignment for Large Language Models May
Backfire! [68.32720959294761]
推論時アタックフレームワークである Emulated Disalignment を導入する。
アウトプット空間において、トレーニング済みと安全に整合した2つのオープンソースの言語モデルを組み合わせることで、有害な言語モデルを生成する。
本研究は,オープンソース言語モデルの実践を再評価することの重要性を強調した。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - All Languages Matter: On the Multilingual Safety of Large Language
Models [101.31394141244294]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in
Large Language Models [34.834611680872314]
そのようなeXaggerated Safetyの振る舞いを特定するために、XSTestと呼ばれる新しいテストスイートを紹介します。
我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおける体系的な障害モードを強調します。
論文 参考訳(メタデータ) (2023-08-02T16:30:40Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z) - Mitigating Covertly Unsafe Text within Natural Language Systems [55.26364166702625]
制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
論文 参考訳(メタデータ) (2022-10-17T17:59:49Z) - On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark [42.322782754346406]
本研究では,人間とロボットの対話に特有の不安全行動の把握を目的とした対話安全のための分類法を提案する。
DiaSafetyは6つの安全でないカテゴリのデータセットで、リッチなコンテキストに敏感なアンセーフな例をコンパイルします。
実験により、既存の発話レベルの安全ツールが我々のデータセットで破滅的に失敗することが示された。
論文 参考訳(メタデータ) (2021-10-16T04:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。