論文の概要: An Empirical Study of Metrics to Measure Representational Harms in
Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2301.09211v1
- Date: Sun, 22 Jan 2023 21:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:28:04.054468
- Title: An Empirical Study of Metrics to Measure Representational Harms in
Pre-Trained Language Models
- Title(参考訳): 事前学習言語モデルにおける表現的ハームの測定基準に関する実証的研究
- Authors: Saghar Hosseini and Hamid Palangi and Ahmed Hassan Awadallah
- Abstract要約: 事前訓練された言語モデル(PTLM)は、潜在社会的バイアスと有毒な内容を持つ巨大な人文データから知識を抽出する。
そこで本研究では,PTLMにおける暗黙的な表現的害を13の人口層に対して定量化するための新しい指標を提案する。
我々の分析は、本研究における提案された指標と他の関連する指標との相関関係に関する洞察を与える。
- 参考スコア(独自算出の注目度): 39.84261983590683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Pre-Trained Language Models (PTLMs) capture knowledge from
massive human-written data which contains latent societal biases and toxic
contents. In this paper, we leverage the primary task of PTLMs, i.e., language
modeling, and propose a new metric to quantify manifested implicit
representational harms in PTLMs towards 13 marginalized demographics. Using
this metric, we conducted an empirical analysis of 24 widely used PTLMs. Our
analysis provides insights into the correlation between the proposed metric in
this work and other related metrics for representational harm. We observe that
our metric correlates with most of the gender-specific metrics in the
literature. Through extensive experiments, we explore the connections between
PTLMs architectures and representational harms across two dimensions: depth and
width of the networks. We found that prioritizing depth over width, mitigates
representational harms in some PTLMs. Our code and data can be found at
https://github.com/microsoft/SafeNLP.
- Abstract(参考訳): 大規模事前学習言語モデル(PTLM)は、潜在社会的バイアスと有害な内容を含む膨大な人文データから知識を抽出する。
本稿では,PTLMの基本課題である言語モデリングを活用し,PTLMにおける暗黙的表現的害の定量化のための新しい指標を提案する。
この測定値を用いて,24種類のptlmの実証分析を行った。
我々の分析は、本研究における提案された指標と他の関連する指標との相関関係に関する洞察を与える。
我々の測定基準は、文献の男女別指標のほとんどと相関していることを観察した。
広範な実験を通じて、ptlmsアーキテクチャとネットワークの深さと幅の2次元にわたる表現的危害の関係を探索する。
いくつかのPTLMでは,幅よりも深度を優先し,表現障害を軽減することが判明した。
コードとデータはhttps://github.com/microsoft/SafeNLPで確認できます。
関連論文リスト
- MBIAS: Mitigating Bias in Large Language Models While Retaining Context [2.321323878201932]
多様なアプリケーションにおける大規模言語モデル(LLM)は、生成されたコンテンツのコンテキスト整合性を損なうことなく安全性を保証する必要がある。
安全対策に特化して設計されたカスタムデータセットに微調整を施したLLMフレームワークであるMBIASを紹介する。
MBIASは、主要な情報を保持しながら、LLM出力のバイアスや有害な要素を著しく減少させるように設計されている。
実証分析により、BIASは標準評価では30%以上、多様な人口統計検査では90%以上、偏見と毒性の低下を達成していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-18T13:31:12Z) - Locally Differentially Private In-Context Learning [8.659575019965152]
大規模な事前学習言語モデル(LLM)は、驚くべきインコンテキスト学習(ICL)能力を示している。
本稿では,文脈内学習(LDP-ICL)の局所的差分的フレームワークを提案する。
変圧器の勾配勾配降下による文脈内学習のメカニズムを考慮し,LDP-ICLにおけるプライバシとユーティリティのトレードオフ分析を行う。
論文 参考訳(メタデータ) (2024-05-07T06:05:43Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。
ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。
In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:05:59Z) - A Geometrical Approach to Evaluate the Adversarial Robustness of Deep
Neural Networks [52.09243852066406]
対向収束時間スコア(ACTS)は、対向ロバストネス指標として収束時間を測定する。
我々は,大規模画像Netデータセットに対する異なる敵攻撃に対して,提案したACTSメトリックの有効性と一般化を検証する。
論文 参考訳(メタデータ) (2023-10-10T09:39:38Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。