論文の概要: It's All Relative: Interpretable Models for Scoring Bias in Documents
- arxiv url: http://arxiv.org/abs/2307.08139v1
- Date: Sun, 16 Jul 2023 19:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:22:04.735989
- Title: It's All Relative: Interpretable Models for Scoring Bias in Documents
- Title(参考訳): 文書のバイアスをスコアリングするための解釈可能なモデル
- Authors: Aswin Suresh, Chi-Hsuan Wu, Matthias Grossglauser
- Abstract要約: 本稿では,テキストコンテンツのみに基づいて,Webドキュメントに存在するバイアスを評価するための解釈可能なモデルを提案する。
我々のモデルはBradley-Terryの公理を思わせる仮定を取り入れ、同じウィキペディアの記事の2つの修正に基づいて訓練されている。
我々は、訓練されたモデルのパラメータを解釈して、最も偏りを示す単語を見つけることができることを示す。
- 参考スコア(独自算出の注目度): 10.678219157857946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an interpretable model to score the bias present in web documents,
based only on their textual content. Our model incorporates assumptions
reminiscent of the Bradley-Terry axioms and is trained on pairs of revisions of
the same Wikipedia article, where one version is more biased than the other.
While prior approaches based on absolute bias classification have struggled to
obtain a high accuracy for the task, we are able to develop a useful model for
scoring bias by learning to perform pairwise comparisons of bias accurately. We
show that we can interpret the parameters of the trained model to discover the
words most indicative of bias. We also apply our model in three different
settings - studying the temporal evolution of bias in Wikipedia articles,
comparing news sources based on bias, and scoring bias in law amendments. In
each case, we demonstrate that the outputs of the model can be explained and
validated, even for the two domains that are outside the training-data domain.
We also use the model to compare the general level of bias between domains,
where we see that legal texts are the least biased and news media are the most
biased, with Wikipedia articles in between. Given its high performance,
simplicity, interpretability, and wide applicability, we hope the model will be
useful for a large community, including Wikipedia and news editors, political
and social scientists, and the general public.
- Abstract(参考訳): テキストコンテンツのみに基づいて, web ドキュメントに存在するバイアスをスコア付けするための解釈可能なモデルを提案する。
我々のモデルはブラッドリー・テリーの公理を思い起こさせる仮定を取り入れており、同じウィキペディアの記事の修正ペアに基づいて訓練され、あるバージョンは他のバージョンよりも偏りがある。
絶対バイアス分類に基づく事前のアプローチは,タスクの高精度化に苦慮する一方で,学習によって偏差のペア比較を正確に行うことで,偏差のスコアリングに有用なモデルを開発することができる。
学習モデルのパラメータを解釈することで,バイアスを最も表わす単語を発見できることを示す。
また、ウィキペディアの記事におけるバイアスの時間的進化の研究、バイアスに基づくニュースソースの比較、法改正におけるバイアスの評価という3つの異なる設定でモデルを適用します。
いずれの場合も、トレーニングデータ領域外にある2つのドメインに対しても、モデルの出力を説明および検証できることを実証する。
また、このモデルを使ってドメイン間の偏りの一般的なレベルを比較することで、法律上のテキストは偏りが低く、ニュースメディアは偏りが一番多く、wikipediaの記事はその中間にあります。
その高いパフォーマンス、シンプルさ、解釈性、そして幅広い適用性を考えると、wikipediaやニュース編集者、政治・社会科学者、そして一般大衆を含む大きなコミュニティにとって、このモデルが役立つことを願っている。
関連論文リスト
- From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - DocNet: Semantic Structure in Inductive Bias Detection Models [0.4779196219827508]
本稿では,文書におけるバイアス検出の見過ごされがちな側面として,ニュース記事の意味的構造について考察する。
本稿では,新しい,インダクティブで低リソースなドキュメント埋め込みとバイアス検出モデルであるDocNetを提案する。
また、文書レベルのグラフ埋め込みに代表される、対立するパルチザン側からのニュース記事のセマンティック構造が顕著に類似していることも示している。
論文 参考訳(メタデータ) (2024-06-16T14:51:12Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Bias in News Summarization: Measures, Pitfalls and Corpora [4.917075909999548]
本稿では,要約モデルにおけるバイアス付き行動の定義と実用運用について紹介する。
目的合成モデルと汎用チャットモデルの両方で生成された英語要約における性別バイアスを測定する。
単一文書要約におけるコンテンツ選択は、性バイアスの影響をほとんど受けていないが、幻覚は偏見の証拠である。
論文 参考訳(メタデータ) (2023-09-14T22:20:27Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Gender Biases and Where to Find Them: Exploring Gender Bias in
Pre-Trained Transformer-based Language Models Using Movement Pruning [32.62430731115707]
本稿では,移動プルーニングによるトランスフォーマーベース言語モデルのバイアス検査のための新しい枠組みを示す。
モデルを微調整しながらデバイアスの対象にすることで、私たちのフレームワークを実装します。
モデルのパフォーマンスが向上すればするほど、バイアスが増します。
論文 参考訳(メタデータ) (2022-07-06T06:20:35Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。