論文の概要: Identifying Bias in Machine-generated Text Detection
- arxiv url: http://arxiv.org/abs/2512.09292v1
- Date: Wed, 10 Dec 2025 03:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.385938
- Title: Identifying Bias in Machine-generated Text Detection
- Title(参考訳): 機械によるテキスト検出におけるバイアスの同定
- Authors: Kevin Stowe, Svetlana Afanaseva, Rodolfo Raimundo, Yitao Sun, Kailash Patil,
- Abstract要約: 機械によるテキスト検出システムにおける潜在的なバイアスについて検討する。
性別,人種・民族性,英語学習者(ELL)状態,経済状態の4つの属性にまたがるバイアス検出システムについて検討した。
バイアスは一般的にシステム間で矛盾するが、いくつかの大きな問題がある。
- 参考スコア(独自算出の注目度): 1.7564967367156
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The meteoric rise in text generation capability has been accompanied by parallel growth in interest in machine-generated text detection: the capability to identify whether a given text was generated using a model or written by a person. While detection models show strong performance, they have the capacity to cause significant negative impacts. We explore potential biases in English machine-generated text detection systems. We curate a dataset of student essays and assess 16 different detection systems for bias across four attributes: gender, race/ethnicity, English-language learner (ELL) status, and economic status. We evaluate these attributes using regression-based models to determine the significance and power of the effects, as well as performing subgroup analysis. We find that while biases are generally inconsistent across systems, there are several key issues: several models tend to classify disadvantaged groups as machine-generated, ELL essays are more likely to be classified as machine-generated, economically disadvantaged students' essays are less likely to be classified as machine-generated, and non-White ELL essays are disproportionately classified as machine-generated relative to their White counterparts. Finally, we perform human annotation and find that while humans perform generally poorly at the detection task, they show no significant biases on the studied attributes.
- Abstract(参考訳): 気象によるテキスト生成能力の上昇は、機械が生成したテキスト検出(モデルを用いて与えられたテキストが生成されたか、あるいは人によって書かれたかを特定する能力)に平行な成長が伴っている。
検出モデルは高い性能を示すが、それらは大きなネガティブな影響を引き起こす能力を持っている。
英語機械によるテキスト検出システムにおける潜在的なバイアスについて検討する。
我々は、学生エッセイのデータセットをキュレートし、性別、人種・民族性、英語学習者(ELL)の地位、経済的地位の4つの属性にまたがるバイアスの16の異なる検出システムを評価する。
我々はこれらの属性を回帰モデルを用いて評価し、効果の意義とパワーを判定し、サブグループ分析を行う。
いくつかのモデルでは不利な集団を機械生成と分類する傾向があり、ELエッセイは機械生成と分類される傾向があり、経済的に不利な学生のエッセイは機械生成と分類される傾向が低く、非ホワイトエッセイは非ホワイトエッセイは機械生成とホワイトのエッセイと区別される傾向にある。
最後に、人間のアノテーションを実行し、人間は検出タスクにおいて一般的には不十分であるが、研究された属性に有意な偏見は示さないことを発見した。
関連論文リスト
- Mixture of Detectors: A Compact View of Machine-Generated Text Detection [2.4013793000097103]
本稿では,文書レベルのバイナリやマルチクラス分類,ジェネレータ属性など,複数のシナリオにわたる機械生成テキストの検出に対処する。
BMAS Englishと呼ばれる新しい研究は、人文と機械文のバイナリ分類のための英語データセット、マルチクラス分類のための、そして検出の緩和のための共通の行為であるアドリアックアタックアタックアタック(Adrial attack addressing)である。
論文 参考訳(メタデータ) (2025-09-26T10:05:22Z) - Who Writes What: Unveiling the Impact of Author Roles on AI-generated Text Detection [44.05134959039957]
本稿では,社会言語学的属性・ジェンダー,CEFR習熟度,学術分野,言語環境に影響を及ぼすAIテキスト検出装置について検討する。
CEFRの習熟度と言語環境は一貫して検出器の精度に影響を与え,性別や学術分野は検出器に依存した効果を示した。
これらの発見は、特定の人口集団に不公平に罰を与えるのを避けるために、社会的に認識されたAIテキストの検出が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-02-18T07:49:31Z) - Biased or Flawed? Mitigating Stereotypes in Generative Language Models by Addressing Task-Specific Flaws [12.559028963968247]
生成言語モデルは、しばしば出力の社会的バイアスを反映し増幅します。
生成モデルにおいて観測されたステレオタイプを暗黙的に緩和する目的のステレオタイプ緩和フレームワークを提案する。
複数の次元にわたるステレオタイプ出力を60%以上削減する。
論文 参考訳(メタデータ) (2024-12-16T03:29:08Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。