論文の概要: Characteristics of Harmful Text: Towards Rigorous Benchmarking of
Language Models
- arxiv url: http://arxiv.org/abs/2206.08325v1
- Date: Thu, 16 Jun 2022 17:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 18:07:19.093016
- Title: Characteristics of Harmful Text: Towards Rigorous Benchmarking of
Language Models
- Title(参考訳): 有害テキストの特徴:言語モデルの厳密なベンチマークに向けて
- Authors: Maribeth Rauh, John Mellor, Jonathan Uesato, Po-Sen Huang, Johannes
Welbl, Laura Weidinger, Sumanth Dathathri, Amelia Glaese, Geoffrey Irving,
Iason Gabriel, William Isaac, Lisa Anne Hendricks
- Abstract要約: 大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。
近年の文献や現実世界の観測により、これらのモデルが有害、偏見があり、非現実的、その他の有害な言語を生成できることが証明されている。
我々は、新しいベンチマークを設計する際、明らかな考慮に値する有害なテキストを特徴づける6つの方法を概説する。
- 参考スコア(独自算出の注目度): 32.960462266615096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models produce human-like text that drive a growing number of
applications. However, recent literature and, increasingly, real world
observations, have demonstrated that these models can generate language that is
toxic, biased, untruthful or otherwise harmful. Though work to evaluate
language model harms is under way, translating foresight about which harms may
arise into rigorous benchmarks is not straightforward. To facilitate this
translation, we outline six ways of characterizing harmful text which merit
explicit consideration when designing new benchmarks. We then use these
characteristics as a lens to identify trends and gaps in existing benchmarks.
Finally, we apply them in a case study of the Perspective API, a toxicity
classifier that is widely used in harm benchmarks. Our characteristics provide
one piece of the bridge that translates between foresight and effective
evaluation.
- Abstract(参考訳): 大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。
しかし、近年の文献や現実世界の観測により、これらのモデルが有害、偏見、非現実的、その他の有害な言語を生成できることが証明されている。
言語モデルの害を評価する作業は進行中であるが、厳格なベンチマークにどの害が生じるかの見通しを翻訳することは容易ではない。
この翻訳を容易にするために、新しいベンチマークを設計する際に明示的に考慮すべき有害なテキストを特徴付ける6つの方法について概説する。
次に、これらの特徴をレンズとして、既存のベンチマークの傾向とギャップを識別します。
最後に,重篤なベンチマークで広く使用されている毒性分類器である perspective api のケーススタディに適用する。
我々の特徴は,橋梁の1つの部分を提供し,前向きと有効評価の間を翻訳する。
関連論文リスト
- Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Mitigating harm in language models with conditional-likelihood
filtration [4.002298833349518]
本稿では,Webスケールの未フィルタリングデータセットから有害なビューを特定する手法を提案する。
このフィルタデータセットでトレーニングされたモデルは、有害なテキストを生成するための妥当性が低いことを実証する。
我々はまた、研究者がそれぞれの値とより密に整合した言語モデルを構築するために、特定の値が利用できるフレーズをトリガーする方法についても論じる。
論文 参考訳(メタデータ) (2021-08-04T22:18:10Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。