論文の概要: Ethical and social risks of harm from Language Models
- arxiv url: http://arxiv.org/abs/2112.04359v1
- Date: Wed, 8 Dec 2021 16:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 17:24:17.540578
- Title: Ethical and social risks of harm from Language Models
- Title(参考訳): 言語モデルによる危害の倫理的・社会的リスク
- Authors: Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan
Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh,
Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba
Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean
Legassick, Geoffrey Irving, Iason Gabriel
- Abstract要約: 本稿では,大規模言語モデル(LM)に関連するリスクランドスケープの構築を支援することを目的とする。
コンピュータ科学、言語学、社会科学から多分野の専門知識と文献を参考に、幅広い確立と予測されたリスクが詳細に分析されている。
- 参考スコア(独自算出の注目度): 22.964941107198023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to help structure the risk landscape associated with
large-scale Language Models (LMs). In order to foster advances in responsible
innovation, an in-depth understanding of the potential risks posed by these
models is needed. A wide range of established and anticipated risks are
analysed in detail, drawing on multidisciplinary expertise and literature from
computer science, linguistics, and social sciences.
We outline six specific risk areas: I. Discrimination, Exclusion and
Toxicity, II. Information Hazards, III. Misinformation Harms, V. Malicious
Uses, V. Human-Computer Interaction Harms, VI. Automation, Access, and
Environmental Harms. The first area concerns the perpetuation of stereotypes,
unfair discrimination, exclusionary norms, toxic language, and lower
performance by social group for LMs. The second focuses on risks from private
data leaks or LMs correctly inferring sensitive information. The third
addresses risks arising from poor, false or misleading information including in
sensitive domains, and knock-on risks such as the erosion of trust in shared
information. The fourth considers risks from actors who try to use LMs to cause
harm. The fifth focuses on risks specific to LLMs used to underpin
conversational agents that interact with human users, including unsafe use,
manipulation or deception. The sixth discusses the risk of environmental harm,
job automation, and other challenges that may have a disparate effect on
different social groups or communities.
In total, we review 21 risks in-depth. We discuss the points of origin of
different risks and point to potential mitigation approaches. Lastly, we
discuss organisational responsibilities in implementing mitigations, and the
role of collaboration and participation. We highlight directions for further
research, particularly on expanding the toolkit for assessing and evaluating
the outlined risks in LMs.
- Abstract(参考訳): 本稿では,大規模言語モデル(LM)に関連するリスクランドスケープの構築を支援することを目的とする。
責任あるイノベーションの進歩を促進するためには、これらのモデルによって生じる潜在的なリスクを深く理解する必要がある。
コンピュータ科学、言語学、社会科学から学際的な専門知識と文学を描き出し、さまざまな確立されたリスクと予測されるリスクを詳細に分析する。
I.識別,排他,毒性の6つの特定リスク領域について概説する。
情報ハザード、III。
Misinformation Harms, V. Malicious Uses, V. Human-Computer Interaction Harms, VI
自動化、アクセス、環境被害。
第1の領域は、ステレオタイプ、不公平な差別、排他的規範、有害言語、およびLMの社会的グループによる低いパフォーマンスに関するものである。
2つ目は、機密情報を正しく推測するプライベートデータリークやLMからのリスクに焦点を当てている。
第3の問題は、機密ドメインを含む貧弱、虚偽、誤解を招く情報や、共有情報への信頼の侵食などのノックオンリスクから生じるリスクに対処する。
第4部では、lmsを危険にさらそうとする俳優のリスクについて考察する。
第5章では、安全でない使用、操作、詐欺など、人間のユーザと対話する会話エージェントの基盤となるLLMに特有のリスクに焦点を当てている。
第6章では、異なる社会グループやコミュニティに異なる影響を与える可能性のある環境被害、仕事の自動化、その他の課題のリスクについて論じている。
総じて21のリスクを詳細に検討する。
異なるリスクの起点を議論し,潜在的な緩和アプローチを指摘する。
最後に、緩和の実施における組織的責任と、コラボレーションと参加の役割について論じる。
今後の研究の方向性,特にlmsの概要リスクの評価・評価のためのツールキットの拡大について紹介する。
関連論文リスト
- Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - "It's a conversation, not a quiz": A Risk Taxonomy and Reflection Tool for LLM Adoption in Public Health [16.418366314356184]
我々は、健康専門家や健康問題経験者と焦点を合わせ、懸念を解き放つ。
参加者の視点をリスク分類にまとめる。
この分類学は、個人の行動、人間中心のケア、情報エコシステム、技術説明責任の4つの側面を強調している。
論文 参考訳(メタデータ) (2024-11-04T20:35:10Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文 参考訳(メタデータ) (2024-06-07T08:52:24Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Reasoning Under Uncertainty Trap: A Structural AI Risk [0.0]
RUUを人間と機械の両方にとって困難なものにしているのは、レポートにある。
この誤用リスクが、基盤となる構造的リスクのネットワークとどのように結びつくのかを詳述する。
論文 参考訳(メタデータ) (2024-01-29T17:16:57Z) - A Framework for Institutional Risk Identification using Knowledge Graphs
and Automated News Profiling [5.631924211771643]
世界中の組織は、世界中の運用に影響を与えるさまざまなリスクに直面しています。
リスクが生まれる前に潜在的なリスクを検知し、評価する、堅牢なリスク識別プロセスを持つことが不可欠である。
論文 参考訳(メタデータ) (2021-09-19T11:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。