論文の概要: Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2301.04347v1
- Date: Wed, 11 Jan 2023 07:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:36:21.645007
- Title: Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models
- Title(参考訳): 対する:事前訓練された言語モデルにおけるステレオタイプ表現のテスト
- Authors: Damin Zhang
- Abstract要約: 本稿では,反例を用いた事前学習言語モデルの内部ステレオタイプ表現を簡易に検証する手法を提案する。
その結果,事前学習した言語モデルは,無関係な知識を用いた場合,ある程度の堅牢性を示すことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have demonstrated strong performance on various natural
language understanding tasks. Similar to humans, language models could also
have their own bias that is learned from the training data. As more and more
downstream tasks integrate language models as part of the pipeline, it is
necessary to understand the internal stereotypical representation and the
methods to mitigate the negative effects. In this paper, we proposed a simple
method to test the internal stereotypical representation in pre-trained
language models using counterexamples. We mainly focused on gender bias, but
the method can be extended to other types of bias. We evaluated models on 9
different cloze-style prompts consisting of knowledge and base prompts. Our
results indicate that pre-trained language models show a certain amount of
robustness when using unrelated knowledge, and prefer shallow linguistic cues,
such as word position and syntactic structure, to alter the internal
stereotypical representation. Such findings shed light on how to manipulate
language models in a neutral approach for both finetuning and evaluation.
- Abstract(参考訳): 言語モデルは様々な自然言語理解タスクにおいて強力な性能を示している。
人間と同じように、言語モデルはトレーニングデータから学習される独自のバイアスを持つこともできる。
より下流のタスクがパイプラインの一部として言語モデルを統合するにつれて、内部のステレオタイプ表現と、負の効果を軽減する方法を理解する必要がある。
本稿では,反例を用いた事前学習言語モデルの内部ステレオタイプ表現を簡易に検証する手法を提案する。
主にジェンダーバイアスに焦点をあてたが、この方法は他のタイプのバイアスにも拡張できる。
知識とベースプロンプトからなる9種類のクローゼスタイルプロンプトのモデルを評価した。
以上の結果から,事前学習された言語モデルでは,無関係な知識を用いた場合,一定の頑健さを示し,語の位置や構文構造といった浅い言語手がかりを好み,内的ステレオタイプ表現を変化させることができた。
このような発見は、言語モデルを微調整と評価の両方のための中立的なアプローチで操作する方法に光を当てた。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach [4.908389661988191]
本稿では, 性別, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867の事例からなるMulti-Grain Stereotype (MGS)データセットを提案する。
我々は、さまざまな機械学習アプローチを評価し、異なるアーキテクチャと大きさのベースラインと微調整言語モデルを確立する。
我々は、モデルが学習したパターンがステレオタイプに関する人間の直観と一致するかどうかを評価するために、SHAP、LIME、BertVizを含む説明可能なAI(XAI)ツールを採用する。
論文 参考訳(メタデータ) (2024-04-02T09:31:32Z) - Multilingual large language models leak human stereotypes across language boundaries [25.903732543380528]
モデルを多言語で訓練すると、ある言語で表現されたステレオタイプが、別の言語でモデルの振る舞いに現れる可能性がある。
ステレオタイプ漏洩の測定フレームワークを提案し,その影響を英語,ロシア語,中国語,ヒンディー語で調査する。
GPT-3.5は最もステレオタイプのリークであり,Hindiは最もリークの影響を受けやすい。
論文 参考訳(メタデータ) (2023-12-12T10:24:17Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Probing Linguistic Information For Logical Inference In Pre-trained
Language Models [2.4366811507669124]
本稿では,事前学習した言語モデル表現における論理推論のための言語情報探索手法を提案する。
i)事前学習された言語モデルは、推論のためにいくつかの種類の言語情報を符号化するが、弱符号化された情報もいくつか存在する。
シンボリック推論支援のためのセマンティックおよび背景知識基盤としての言語モデルの可能性を実証した。
論文 参考訳(メタデータ) (2021-12-03T07:19:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Stepmothers are mean and academics are pretentious: What do pretrained
language models learn about you? [11.107926166222452]
本稿では,社会集団のステレオタイプ属性を構成する最初のデータセットについて述べる。
本研究では,事前学習された言語モデルによって符号化されたステレオタイプを教師なしで抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。