論文の概要: Detecting Linguistic Bias in Government Documents Using Large language Models
- arxiv url: http://arxiv.org/abs/2502.13548v1
- Date: Wed, 19 Feb 2025 08:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:19.486895
- Title: Detecting Linguistic Bias in Government Documents Using Large language Models
- Title(参考訳): 大規模言語モデルを用いた政府文書の言語バイアスの検出
- Authors: Milena de Swart, Floris den Hengst, Jieying Chen,
- Abstract要約: 既存の方法論は、しばしば政府文書のユニークな文脈と遠方の影響を見落としている。
本稿では,オランダ下院から得られた,専門家による偏見を示すデータセットであるDGDB(Dutch Government Data for Bias Detection)を紹介する。
このデータセット上に複数のBERTベースのモデルを微調整し、それらの性能を生成言語モデルと比較する。
- 参考スコア(独自算出の注目度): 2.1301560294088318
- License:
- Abstract: This paper addresses the critical need for detecting bias in government documents, an underexplored area with significant implications for governance. Existing methodologies often overlook the unique context and far-reaching impacts of governmental documents, potentially obscuring embedded biases that shape public policy and citizen-government interactions. To bridge this gap, we introduce the Dutch Government Data for Bias Detection (DGDB), a dataset sourced from the Dutch House of Representatives and annotated for bias by experts. We fine-tune several BERT-based models on this dataset and compare their performance with that of generative language models. Additionally, we conduct a comprehensive error analysis that includes explanations of the models' predictions. Our findings demonstrate that fine-tuned models achieve strong performance and significantly outperform generative language models, indicating the effectiveness of DGDB for bias detection. This work underscores the importance of labeled datasets for bias detection in various languages and contributes to more equitable governance practices.
- Abstract(参考訳): 本稿では,行政文書におけるバイアス検出の重要課題について論じる。
既存の方法論は、公共政策や市民と政府の相互作用を形成する埋め込んだバイアスを隠蔽する可能性があり、政府文書のユニークな文脈と広範囲にわたる影響を見落としていることが多い。
このギャップを埋めるために、オランダ下院が作成した、専門家による偏見を注釈したデータセットであるオランダ政府のバイアス検出のためのデータ(DGDB)を紹介します。
このデータセット上に複数のBERTベースのモデルを微調整し、それらの性能を生成言語モデルと比較する。
さらに、モデル予測の説明を含む包括的エラー解析を行う。
本研究は, 微調整モデルにより生成言語モデルの性能が向上し, バイアス検出におけるDGDBの有効性が示唆された。
この研究は、様々な言語におけるバイアス検出のためのラベル付きデータセットの重要性を強調し、より公平なガバナンスプラクティスに貢献している。
関連論文リスト
- GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes [2.2162879952427343]
本稿では,バイアス検出の革新的なアプローチであるGAS-Netを紹介する。
GUS-Netは、(G)エナラライゼーション、(U)nfairness、(S)tereotypesの3つの重要な種類のバイアスに焦点を当てている。
本手法は,事前学習したモデルの文脈エンコーディングを組み込むことにより,従来のバイアス検出手法を強化する。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - BEADs: Bias Evaluation Across Domains [9.19312529999677]
Bias Evaluations Across Domains BEADsデータセットは、幅広いNLPタスクをサポートするように設計されています。
本論文の重要な焦点は,GPT4でアノテートされたゴールドラベルデータセットである。
この結果から,BEADは,このデータセットを微調整した場合に,多くのバイアスを効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T16:18:30Z) - IndiVec: An Exploration of Leveraging Large Language Models for Media
Bias Detection with Fine-Grained Bias Indicators [16.222566896022247]
大規模言語モデル上に構築された一般的なバイアス検出フレームワークであるIndiVecを導入する。
IndiVecは、きめ細かいメディアバイアスデータベースを構築することから始まる。
ベクタデータベースから最も関連性の高い指標を自動的に選択し、多数決を採用して入力のバイアスラベルを決定する。
論文 参考訳(メタデータ) (2024-02-01T05:20:07Z) - Current Topological and Machine Learning Applications for Bias Detection
in Text [4.799066966918178]
本研究はRedditBiasデータベースを用いてテキストバイアスの分析を行う。
BERTおよびRoBERTaの変種を含む4つの変圧器モデルについて検討した。
発見によるとBERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。
論文 参考訳(メタデータ) (2023-11-22T16:12:42Z) - NBIAS: A Natural Language Processing Framework for Bias Identification
in Text [9.486702261615166]
テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。
偏りのあるデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下すかもしれない。
我々は,データ,コーパス構築,モデル開発,評価レイヤの4つの主要レイヤからなる包括的フレームワーク NBIAS を開発した。
論文 参考訳(メタデータ) (2023-08-03T10:48:30Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。