論文の概要: Epistemic Injustice in Language Models: An Audit of Pretraining Filters and Guardrails
- arxiv url: http://arxiv.org/abs/2606.05936v1
- Date: Thu, 04 Jun 2026 09:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.648905
- Title: Epistemic Injustice in Language Models: An Audit of Pretraining Filters and Guardrails
- Title(参考訳): 言語モデルにおける疫学的不正:フィルターとガードレールの事前学習
- Authors: Marco Antonio Stranisci, A Pranav, Rossana Damiano, Christian Hardmeier, Anne Lauscher,
- Abstract要約: 本研究は,4つの事前学習フィルタと3つの推論時ガードレールを,ジェンダーと地域的言及を含むCommon Crawl文で評価する。
分析の結果,フィルタとガードレールの決定はブロックリストに基づく語彙的手がかりと強く関連していることがわかった。
同時に、特にトランスジェンダーの人々、女性、中央アメリカ人といった疎外されたグループは、システム全体で著しく過度に偏っている。
- 参考スコア(独自算出の注目度): 21.15987151986872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models rely on pretraining filters to remove undesirable content from training corpora and inference-time guardrails to suppress undesirable outputs during deployment. In this paper, we examine how these filtering and moderation decisions produce forms of epistemic erasure and reveal tensions both across automated systems and between these systems and human judgment. We audit four pretraining filters and three inference-time guardrails on Common Crawl sentences containing gender and regional-origin mentions, together with a manually annotated subset of 500 sentences. Our analysis shows that filtering and guardrail decisions are strongly associated with blocklist-based lexical cues, while frequently failing to flag content containing private information or explicit hate speech. At the same time, marginalized groups, particularly transgender people, women, and Central Americans, are significantly over-flagged across systems. Human annotators, by contrast, would retain 88.5\% of filter-flagged and 91.3\% of guardrail-flagged content, often recognizing representational harms arising from tensions of content removal that current systems fail to capture. Taken together, our findings document a form of epistemic erasure in which mentions of marginalized groups are disproportionately removed before pretraining and additionally suppressed again at inference time.
- Abstract(参考訳): 現代の言語モデルは、望ましくないアウトプットを抑えるために、トレーニングコーパスや推論時のガードレールから望ましくないコンテンツを除去するために、事前トレーニングされたフィルタに依存している。
本稿では、これらのフィルタリングとモデレーションの決定が、どのようにしてててんかんの消去を生じさせ、自動システムとこれらのシステム間の緊張関係と人的判断の関係を明らかにするかを検討する。
我々は,500文の注釈付きサブセットとともに,性別と地域的言及を含む共通crawl文に対して,事前学習フィルタと3つの推論時ガードレールを検査した。
分析の結果,フィルタリングとガードレールの決定はブロックリストに基づく語彙的手がかりと強く結びついていることがわかった。
同時に、特にトランスジェンダーの人々、女性、中央アメリカ人といった疎外されたグループは、システム全体で著しく過度に偏っている。
対照的に、人間のアノテーションは88.5 %のフィルターフラグ付きコンテンツと91.3 %のガードレールフラグ付きコンテンツを保持し、しばしば現在のシステムが捕捉できないコンテンツ除去の緊張による表現上の害を認識する。
以上の結果から,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>1</sup>,<sup>2</sup>,<sup>1</sup>,<sup>2</sup>,<sup>2</sup>,</sup>,<sup>2</sup>,</sup>,<sup>,<sup>2</sup>,<sup>3</sup>,</sup>,<sup>,<sup>,
関連論文リスト
- Forgive or forget: Understanding the context of hate in audio retrieval systems [9.716306854178216]
既存の戦略(例えば、言い換え、要約)は意図を変えるか、詳細を省略する。
本稿では,感情制御媒介者が有害な言論を抑えながら意味的関連性を維持するために,感傷的因果性嫌悪の枠組みを提案する。
我々のアプローチはモデルに依存しず、既存の検索パイプラインとシームレスに統合されます。
論文 参考訳(メタデータ) (2026-06-04T08:29:18Z) - Boundary-targeted Membership Inference Attacks on Safety Classifiers [70.20833439671131]
安全分類器は、セルフハームとメンタルヘルスの議論を含むセンシティブなデータセットに基づいて訓練される。
低信頼例を識別する新たな境界目標選択戦略を導入する。
実験により、相手は会話の19%を安全分類器が5%の偽陽性率でユーザーの苦痛を示すようにフラグ付けして回復できることが示された。
これは最先端のMIAメソッドだけで攻撃するより3.5ドル高い。
論文 参考訳(メタデータ) (2026-05-21T12:05:22Z) - A Sentence Relation-Based Approach to Sanitizing Malicious Instructions [15.879266080043076]
現在の防衛措置は、しばしばLLMベースの検出器を使用して、そのようなコンテンツをフィルタリングする。
SONARは,自然言語推論のメトリクスを用いて注入されたコンテンツを識別・除去する,迅速な衛生化フレームワークである。
SONARは攻撃成功率をほぼゼロに減らし、確立された9つのベースライン防御を著しく上回った。
論文 参考訳(メタデータ) (2026-05-01T20:22:40Z) - Explain the Flag: Contextualizing Hate Speech Beyond Censorship [2.796818629124347]
本稿では,Large Language Models(LLMs)と新たに作成された3つの語彙を組み合わせたハイブリッドアプローチを提案する。
本システムでは,2つの相補的なパイプラインを通して,個人特性と直接グループ目標コンテンツに関連付けられた弁解表現を抽出する。
アウトプットは、なぜコンテンツがフラグ付けされているのかを明確にする根拠付きの説明に融合される。
論文 参考訳(メタデータ) (2026-04-16T13:06:28Z) - Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - Watching the Watchers: A Comparative Fairness Audit of Cloud-based Content Moderation Services [1.3654846342364306]
本研究では,サードパーティによる監査を通じて,主要なクラウドベースのコンテンツモデレーションサービス4つを体系的に評価する。
ブラックボックス監査手法と4つのベンチマークデータセットを用いて、明示的かつ暗黙的なヘイトスピーチ検出における性能を測定する。
我々の分析では、すべてのサービスが暗黙のヘイトスピーチを検出するのに苦労していることがわかりました。
女性のような一部のグループに対する偏見はほとんど修正されたものの、LGBTQ+やPoCのような他のグループに対する偏見は残されている。
論文 参考訳(メタデータ) (2024-06-20T09:52:10Z) - Algorithmic Censoring in Dynamic Learning Systems [6.2952076725399975]
検閲を形式化し、その発生方法を示し、検出の難しさを強調します。
我々は、検閲に対する保護 - 規則とランダムな探索 - を考える。
結果として得られたテクニックにより、検閲されたグループの例がトレーニングデータに入力され、モデルを修正できる。
論文 参考訳(メタデータ) (2023-05-15T21:42:22Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Semantically Adversarial Learnable Filters [53.3223426679514]
提案するフレームワークは,マルチタスク目的関数における構造損失と意味的対立損失を組み合わせて,完全な畳み込みニューラルネットワークを訓練する。
構造損失は、ターゲット画像処理フィルタによって型と大きさが定義される摂動を生成するのに役立つ。
意味的敵対的損失は、フィルタされた画像が同じグループのラベルで分類されるのを防ぐために、(意味)ラベルの群が摂動を作らなければならないと考えている。
論文 参考訳(メタデータ) (2020-08-13T18:12:40Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。