論文の概要: Mitigating harm in language models with conditional-likelihood
filtration
- arxiv url: http://arxiv.org/abs/2108.07790v1
- Date: Wed, 4 Aug 2021 22:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-22 16:00:03.292194
- Title: Mitigating harm in language models with conditional-likelihood
filtration
- Title(参考訳): 条件付きフィルタを用いた言語モデルにおける害の軽減
- Authors: Helen Ngo, Cooper Raterink, Jo\~ao G.M. Ara\'ujo, Ivan Zhang, Carol
Chen, Adrien Morisot, Nicholas Frosst
- Abstract要約: 本稿では,Webスケールの未フィルタリングデータセットから有害なビューを特定する手法を提案する。
このフィルタデータセットでトレーニングされたモデルは、有害なテキストを生成するための妥当性が低いことを実証する。
我々はまた、研究者がそれぞれの値とより密に整合した言語モデルを構築するために、特定の値が利用できるフレーズをトリガーする方法についても論じる。
- 参考スコア(独自算出の注目度): 4.002298833349518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models trained on large-scale unfiltered datasets curated from the
open web acquire systemic biases, prejudices, and harmful views from their
training data. We present a methodology for programmatically identifying and
removing harmful text from web-scale datasets. A pretrained language model is
used to calculate the log-likelihood of researcher-written trigger phrases
conditioned on a specific document, which is used to identify and filter
documents from the dataset. We demonstrate that models trained on this filtered
dataset exhibit lower propensity to generate harmful text, with a marginal
decrease in performance on standard language modeling benchmarks compared to
unfiltered baselines. We provide a partial explanation for this performance gap
by surfacing examples of hate speech and other undesirable content from
standard language modeling benchmarks. Finally, we discuss the generalization
of this method and how trigger phrases which reflect specific values can be
used by researchers to build language models which are more closely aligned
with their values.
- Abstract(参考訳): open webからキュレートされた大規模な非フィルタリングデータセットでトレーニングされた言語モデルは、トレーニングデータからシステムのバイアス、偏見、有害なビューを取得する。
本稿では,Webスケールデータセットから有害テキストをプログラムで識別し,除去する手法を提案する。
事前訓練された言語モデルを用いて、特定の文書に条件付けされた研究者によるトリガーフレーズのログ類似度を計算し、データセットから文書を識別してフィルタリングする。
このフィルタ付きデータセットでトレーニングされたモデルは、有害なテキストを生成する確率が低く、標準言語モデリングベンチマークでは、非フィルタ型ベースラインに比べてパフォーマンスがわずかに低下していることが示されている。
標準言語モデリングベンチマークからヘイトスピーチなどの好ましくないコンテンツを例示することにより,このパフォーマンスギャップの部分的な説明を行う。
最後に,本手法の一般化と,特定の値を反映したトリガーフレーズを用いて,より緊密な言語モデルを構築する方法について論じる。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - LatestEval: Addressing Data Contamination in Language Model Evaluation
through Dynamic and Time-Sensitive Test Construction [21.553915781660905]
LatestEvalは、最新のテキストを活用して、非汚染読影理解評価を作成する自動手法である。
これは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。
実験の結果,従来のベンチマークとは対照的に,言語モデルは LatestEval 上で無視可能な記憶行動を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:16:43Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Characteristics of Harmful Text: Towards Rigorous Benchmarking of
Language Models [32.960462266615096]
大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。
近年の文献や現実世界の観測により、これらのモデルが有害、偏見があり、非現実的、その他の有害な言語を生成できることが証明されている。
我々は、新しいベンチマークを設計する際、明らかな考慮に値する有害なテキストを特徴づける6つの方法を概説する。
論文 参考訳(メタデータ) (2022-06-16T17:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。