論文の概要: Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey
- arxiv url: http://arxiv.org/abs/2210.07700v1
- Date: Fri, 14 Oct 2022 10:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:34:13.237667
- Title: Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey
- Title(参考訳): 言語生成モデルがハームを発生させる: それではどうすればいいのか?
実施可能な調査
- Authors: Sachin Kumar, Vidhisha Balachandran, Lucille Njoo, Antonios
Anastasopoulos, Yulia Tsvetkov
- Abstract要約: この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
- 参考スコア(独自算出の注目度): 50.58063811745676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in the capacity of large language models to generate
human-like text have resulted in their increased adoption in user-facing
settings. In parallel, these improvements have prompted a heated discourse
around the risks of societal harms they introduce, whether inadvertent or
malicious. Several studies have identified potential causes of these harms and
called for their mitigation via development of safer and fairer models. Going
beyond enumerating the risks of harms, this work provides a survey of practical
methods for addressing potential threats and societal harms from language
generation models. We draw on several prior works' taxonomies of language model
risks to present a structured overview of strategies for detecting and
ameliorating different kinds of risks/harms of language generators. Bridging
diverse strands of research, this survey aims to serve as a practical guide for
both LM researchers and practitioners with explanations of motivations behind
different mitigation strategies, their limitations, and open problems for
future research.
- Abstract(参考訳): ヒューマンライクなテキストを生成するための大規模言語モデルの能力の最近の進歩は、ユーザ向けセッティングに採用されつつある。
同時に、これらの改善は、不注意であれ悪意であれ、彼らが導入する社会的危害のリスクに関する熱い議論を引き起こしている。
いくつかの研究はこれらの害の潜在的な原因を特定し、より安全で公平なモデルの開発を通じてその軽減を求めた。
この研究は、害のリスクを列挙するだけでなく、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査も提供する。
本稿では,言語モデルリスクに関する先行研究の分類を概説し,言語ジェネレータのさまざまなリスク/ハームを検出し,改善するための戦略の構造化の概要を示す。
本調査は,多種多様な研究の流れを生かして,様々な緩和戦略の背景にあるモチベーション,限界,今後の研究へのオープンな課題を解説し,LM研究者と実践者の両方にとって実践的なガイドとして機能することを目的としている。
関連論文リスト
- DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Detection of Machine-Generated Text: Literature Survey [0.0]
本研究の目的は,機械生成テキスト分野における成果と成果をコンパイルし,合成することである。
また、機械が生成するテキストの傾向を概観し、より大きな社会的意味を探求する。
論文 参考訳(メタデータ) (2024-01-02T01:44:15Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Typology of Risks of Generative Text-to-Image Models [1.933681537640272]
本稿では,DALL-EやMidjourneyといった現代テキスト・画像生成モデルにかかわる直接的なリスクと害について検討する。
これらのリスクの理解と治療に関する知識のギャップは,すでに解決されているものの,我々のレビューでは明らかである。
データバイアスから悪意のある使用まで、22の異なるリスクタイプを特定します。
論文 参考訳(メタデータ) (2023-07-08T20:33:30Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language
Models [11.323961700172175]
本稿では,ChatGPTのような大規模言語モデルにおけるバイアスに関連する課題とリスクについて考察する。
我々は、トレーニングデータの性質、モデル仕様、アルゴリズム制約、製品設計、ポリシー決定など、バイアスの起源について論じる。
私たちは、言語モデルにおけるバイアスを特定し、定量化し、緩和するための現在のアプローチをレビューし、より公平で透明で責任あるAIシステムを開発するための、多分野の協力的な取り組みの必要性を強調します。
論文 参考訳(メタデータ) (2023-04-07T17:14:00Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。