Fugu-MT 論文翻訳(概要): Uncovering Implicit Bias in Large Language Models with Concept Learning Dataset

論文の概要: Uncovering Implicit Bias in Large Language Models with Concept Learning Dataset

arxiv url: http://arxiv.org/abs/2510.01219v1
Date: Sun, 21 Sep 2025 09:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 05:29:07.846995
Title: Uncovering Implicit Bias in Large Language Models with Concept Learning Dataset
Title（参考訳）: 概念学習データセットを用いた大規模言語モデルにおける暗黙のバイアスの発見
Authors: Leroy Z. Wang,
Abstract要約: 文脈内概念学習実験を用いて、量子化器における言語モデルは上向きの単調性に偏りがあることを発見した。これは、言語モデルに隠れたバイアスを発見する効果的な方法として、コンテキスト内概念学習が有効であることを示している。
参考スコア（独自算出の注目度）: 0.038073142980733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a dataset of concept learning tasks that helps uncover implicit biases in large language models. Using in-context concept learning experiments, we found that language models may have a bias toward upward monotonicity in quantifiers; such bias is less apparent when the model is tested by direct prompting without concept learning components. This demonstrates that in-context concept learning can be an effective way to discover hidden biases in language models.
Abstract（参考訳）: 大規模言語モデルにおける暗黙のバイアスを明らかにするために,概念学習タスクのデータセットを導入する。文脈内概念学習実験を用いて、言語モデルが量子化器における上向きの単調性に偏りがあることを発見した。これは、言語モデルに隠れたバイアスを発見する効果的な方法として、コンテキスト内概念学習が有効であることを示している。

関連論文リスト

Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文参考訳（メタデータ） (2024-10-06T13:09:48Z)
Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文参考訳（メタデータ） (2023-01-31T20:09:33Z)
Counteracts: Testing Stereotypical Representation in Pre-trained Language Models [4.211128681972148]
我々は,事前学習言語モデル(PLM)の内部ステレオタイプ知識を調べるために,反例を用いている。我々は,9種類のクローゼスタイルのプロンプトに対して,異なる情報と基本知識で7つのPLMを評価する。
論文参考訳（メタデータ） (2023-01-11T07:52:59Z)
Learning from others' mistakes: Avoiding dataset biases without modeling them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。本稿では,これらの問題点を無視する学習モデルについて述べる。
論文参考訳（メタデータ） (2020-12-02T16:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。