論文の概要: Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey
- arxiv url: http://arxiv.org/abs/2210.07700v1
- Date: Fri, 14 Oct 2022 10:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:34:13.237667
- Title: Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey
- Title(参考訳): 言語生成モデルがハームを発生させる: それではどうすればいいのか?
実施可能な調査
- Authors: Sachin Kumar, Vidhisha Balachandran, Lucille Njoo, Antonios
Anastasopoulos, Yulia Tsvetkov
- Abstract要約: この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
- 参考スコア(独自算出の注目度): 50.58063811745676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in the capacity of large language models to generate
human-like text have resulted in their increased adoption in user-facing
settings. In parallel, these improvements have prompted a heated discourse
around the risks of societal harms they introduce, whether inadvertent or
malicious. Several studies have identified potential causes of these harms and
called for their mitigation via development of safer and fairer models. Going
beyond enumerating the risks of harms, this work provides a survey of practical
methods for addressing potential threats and societal harms from language
generation models. We draw on several prior works' taxonomies of language model
risks to present a structured overview of strategies for detecting and
ameliorating different kinds of risks/harms of language generators. Bridging
diverse strands of research, this survey aims to serve as a practical guide for
both LM researchers and practitioners with explanations of motivations behind
different mitigation strategies, their limitations, and open problems for
future research.
- Abstract(参考訳): ヒューマンライクなテキストを生成するための大規模言語モデルの能力の最近の進歩は、ユーザ向けセッティングに採用されつつある。
同時に、これらの改善は、不注意であれ悪意であれ、彼らが導入する社会的危害のリスクに関する熱い議論を引き起こしている。
いくつかの研究はこれらの害の潜在的な原因を特定し、より安全で公平なモデルの開発を通じてその軽減を求めた。
この研究は、害のリスクを列挙するだけでなく、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査も提供する。
本稿では,言語モデルリスクに関する先行研究の分類を概説し,言語ジェネレータのさまざまなリスク/ハームを検出し,改善するための戦略の構造化の概要を示す。
本調査は,多種多様な研究の流れを生かして,様々な緩和戦略の背景にあるモチベーション,限界,今後の研究へのオープンな課題を解説し,LM研究者と実践者の両方にとって実践的なガイドとして機能することを目的としている。
関連論文リスト
- Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - A Survey on Natural Language Counterfactual Generation [7.022371235308068]
自然言語のカウンターファクト生成は、修正されたテキストが別のクラスに分類されるように、与えられたテキストを最小限に修正することを目的としている。
生成手法を4つのグループに体系的に分類し、生成品質を評価するための指標を要約する新しい分類法を提案する。
論文 参考訳(メタデータ) (2024-07-04T15:13:59Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey [46.19229410404056]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
これらのモデルは、強力な言語理解と生成能力を示すために、広大なデータセットでトレーニングされている。
プライバシーとセキュリティの問題は、そのライフサイクルを通じて明らかになっている。
論文 参考訳(メタデータ) (2024-06-12T07:55:32Z) - BiasKG: Adversarial Knowledge Graphs to Induce Bias in Large Language Models [19.446333438385153]
本稿では,知識グラフを付加した言語モデルに対する新たな攻撃手法を提案する。
我々は、自然言語のステレオタイプを知識グラフに誘導し、敵攻撃戦略を使用する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
論文 参考訳(メタデータ) (2024-05-08T01:51:29Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Typology of Risks of Generative Text-to-Image Models [1.933681537640272]
本稿では,DALL-EやMidjourneyといった現代テキスト・画像生成モデルにかかわる直接的なリスクと害について検討する。
これらのリスクの理解と治療に関する知識のギャップは,すでに解決されているものの,我々のレビューでは明らかである。
データバイアスから悪意のある使用まで、22の異なるリスクタイプを特定します。
論文 参考訳(メタデータ) (2023-07-08T20:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。