論文の概要: Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2301.04347v3
- Date: Fri, 7 Apr 2023 17:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 14:54:27.826274
- Title: Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models
- Title(参考訳): 対する:事前訓練された言語モデルにおけるステレオタイプ表現のテスト
- Authors: Damin Zhang, Julia Rayz, Romila Pradhan
- Abstract要約: 我々は,事前学習言語モデル(PLM)の内部ステレオタイプ知識を調べるために,反例を用いている。
我々は,9種類のクローゼスタイルのプロンプトに対して,異なる情報と基本知識で7つのPLMを評価する。
- 参考スコア(独自算出の注目度): 4.211128681972148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, language models have demonstrated strong performance on various
natural language understanding tasks. Language models trained on large
human-generated corpus encode not only a significant amount of human knowledge,
but also the human stereotype. As more and more downstream tasks have
integrated language models as part of the pipeline, it is necessary to
understand the internal stereotypical representation in order to design the
methods for mitigating the negative effects. In this paper, we use
counterexamples to examine the internal stereotypical knowledge in pre-trained
language models (PLMs) that can lead to stereotypical preference. We mainly
focus on gender stereotypes, but the method can be extended to other types of
stereotype. We evaluate 7 PLMs on 9 types of cloze-style prompt with different
information and base knowledge. The results indicate that PLMs show a certain
amount of robustness against unrelated information and preference of shallow
linguistic cues, such as word position and syntactic structure, but a lack of
interpreting information by meaning. Such findings shed light on how to
interact with PLMs in a neutral approach for both finetuning and evaluation.
- Abstract(参考訳): 近年,自然言語理解タスクにおける言語モデルの性能が向上している。
大きな人間の生成したコーパスで訓練された言語モデルは、かなりの量の人間の知識だけでなく、人間のステレオタイプもエンコードする。
下流のタスクがパイプラインの一部として言語モデルを統合しているため、ネガティブな効果を軽減する方法を設計するためには、内部的ステレオタイプ表現を理解する必要がある。
本稿では,プレトレーニング言語モデル(PLM)の内部ステレオタイプ的知識を,ステレオタイプ的嗜好に導くために,反例を用いて検討する。
主にジェンダーステレオタイプに焦点を当てるが、他のタイプのステレオタイプにも拡張できる。
異なる情報と基礎知識を持つ9種類のクローズ型プロンプトに対して7plmの評価を行った。
その結果, PLMは, 単語の位置や構文構造など, 無関係な情報に対するある程度の堅牢性を示すが, 意味による情報解釈の欠如が示唆された。
このような発見は、微調整と評価の両方のために中立的なアプローチでPLMと相互作用する方法に光を当てた。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Multilingual large language models leak human stereotypes across language boundaries [25.903732543380528]
我々は、英語、ロシア語、中国語、ヒンディー語という4つの言語にまたがるステレオタイプ的関連について検討する。
ヒンディー語は他の言語の影響を受けやすいが、中国語は最小である。
論文 参考訳(メタデータ) (2023-12-12T10:24:17Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - On The Role of Reasoning in the Identification of Subtle Stereotypes in Natural Language [0.03749861135832073]
大規模言語モデル(LLM)は、有害なステレオタイプを補強する様々な形式のバイアスと言語強化を含む膨大な未計算データセットに基づいて訓練される。
言語モデルにおけるバイアスを調べ、対処することが不可欠であり、それらのモデルが社会的バイアスを持続させないように、公平さを開発に組み込むことが不可欠である。
この研究は、自動ステレオタイプ検出における重要な要素としての推論を確立し、LSMのためのより強力なステレオタイプ緩和パイプラインに向けた第一歩である。
論文 参考訳(メタデータ) (2023-07-24T15:12:13Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Probing Linguistic Information For Logical Inference In Pre-trained
Language Models [2.4366811507669124]
本稿では,事前学習した言語モデル表現における論理推論のための言語情報探索手法を提案する。
i)事前学習された言語モデルは、推論のためにいくつかの種類の言語情報を符号化するが、弱符号化された情報もいくつか存在する。
シンボリック推論支援のためのセマンティックおよび背景知識基盤としての言語モデルの可能性を実証した。
論文 参考訳(メタデータ) (2021-12-03T07:19:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Stepmothers are mean and academics are pretentious: What do pretrained
language models learn about you? [11.107926166222452]
本稿では,社会集団のステレオタイプ属性を構成する最初のデータセットについて述べる。
本研究では,事前学習された言語モデルによって符号化されたステレオタイプを教師なしで抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。