論文の概要: Mitigating Covertly Unsafe Text within Natural Language Systems
- arxiv url: http://arxiv.org/abs/2210.09306v2
- Date: Mon, 20 Mar 2023 21:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:43:27.993072
- Title: Mitigating Covertly Unsafe Text within Natural Language Systems
- Title(参考訳): 自然言語システムにおける隠密な安全でないテキストの緩和
- Authors: Alex Mei, Anisha Kabir, Sharon Levy, Melanie Subbiah, Emily Allaway,
John Judge, Desmond Patton, Bruce Bimber, Kathleen McKeown, William Yang Wang
- Abstract要約: 制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
- 参考スコア(独自算出の注目度): 55.26364166702625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasingly prevalent problem for intelligent technologies is text
safety, as uncontrolled systems may generate recommendations to their users
that lead to injury or life-threatening consequences. However, the degree of
explicitness of a generated statement that can cause physical harm varies. In
this paper, we distinguish types of text that can lead to physical harm and
establish one particularly underexplored category: covertly unsafe text. Then,
we further break down this category with respect to the system's information
and discuss solutions to mitigate the generation of text in each of these
subcategories. Ultimately, our work defines the problem of covertly unsafe
language that causes physical harm and argues that this subtle yet dangerous
issue needs to be prioritized by stakeholders and regulators. We highlight
mitigation strategies to inspire future researchers to tackle this challenging
problem and help improve safety within smart systems.
- Abstract(参考訳): インテリジェントテクノロジーの大きな問題は、テキストの安全性にある。制御されていないシステムは、怪我や致命的な結果につながるユーザへのレコメンデーションを生成する可能性があるからだ。
しかし、物理的危害を引き起こす可能性のある生成文の明示性の度合いは様々である。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
そして,このカテゴリをシステムの情報に関してさらに分解し,各サブカテゴリにおけるテキスト生成を緩和するためのソリューションについて議論する。
究極的には、物理的な危害を引き起こす隠密な安全でない言語の問題を定義し、この微妙で危険な問題は利害関係者や規制当局によって優先される必要があると主張している。
我々は、将来の研究者にこの問題に取り組むよう促し、スマートシステムにおける安全性を改善するための緩和戦略を強調する。
関連論文リスト
- Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders [5.070104802923903]
UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす
本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
論文 参考訳(メタデータ) (2024-07-09T13:35:54Z) - The Alignment Problem in Context [0.05657375260432172]
大規模言語モデルのアライメント問題を解決するために,私たちが現在進行中であるかどうかを評価する。
大規模な言語モデルは敵の攻撃に弱いままなので、アライメントのための既存の戦略は不十分である、と私は論じます。
これは、アライメント問題は現在のAIシステムでは未解決であるだけでなく、その能力を著しく損なうことなく、本質的に解決が困難であることを示している。
論文 参考訳(メタデータ) (2023-11-03T17:57:55Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z) - SafeText: A Benchmark for Exploring Physical Safety in Language Models [62.810902375154136]
テキスト生成およびコモンセンス推論タスク用に設計された各種モデルのコモンセンス物理安全性について検討する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのが困難であることがわかった。
論文 参考訳(メタデータ) (2022-10-18T17:59:31Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Overcoming Failures of Imagination in AI Infused System Development and
Deployment [71.9309995623067]
NeurIPS 2020は研究論文に「潜在的な悪用と失敗の結果」に関するインパクトステートメントを含むよう要求した。
我々は、害の枠組みは文脈に適応し、潜在的な利害関係者、システム余裕、および最も広い意味での害を評価するための実行可能なプロキシを考える必要があると論じている。
論文 参考訳(メタデータ) (2020-11-26T18:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。