論文の概要: Are Non-English Papers Reviewed Fairly? Language-of-Study Bias in NLP Peer Reviews
- arxiv url: http://arxiv.org/abs/2604.07119v1
- Date: Wed, 08 Apr 2026 14:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.573118
- Title: Are Non-English Papers Reviewed Fairly? Language-of-Study Bias in NLP Peer Reviews
- Title(参考訳): 非英語論文は公正にレビューされるか? : NLP Peer Reviewsにおける言語と学習バイアス
- Authors: Ehsan Barkhordar, Abdulfattah Safa, Verena Blaschke, Erika Lombart, Marie-Catherine de Marneffe, Gözde Gül Şahin,
- Abstract要約: 言語・オブ・スタディ(LoS)バイアス(Language-of-study)は、レビュアーが研究する言語に基づいて、その科学的メリットではなく、異なる評価を行う傾向である。
陰性型と正の型を区別したLoSバイアスを初めて体系的に評価し,人間による注釈付きデータセットLOBSTERを紹介した。
- 参考スコア(独自算出の注目度): 6.0093124241390745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer review plays a central role in the NLP publication process, but is susceptible to various biases. Here, we study language-of-study (LoS) bias: the tendency for reviewers to evaluate a paper differently based on the language(s) it studies, rather than its scientific merit. Despite being explicitly flagged in reviewing guidelines, such biases are poorly understood. Prior work treats such comments as part of broader categories of weak or unconstructive reviews without defining them as a distinct form of bias. We present the first systematic characterization of LoS bias, distinguishing negative and positive forms, and introduce the human-annotated dataset LOBSTER (Language-Of-study Bias in ScienTific pEer Review) and a method achieving 87.37 macro F1 for detection. We analyze 15,645 reviews to estimate how negative and positive biases differ with respect to the LoS, and find that non-English papers face substantially higher bias rates than English-only ones, with negative bias consistently outweighing positive bias. Finally, we identify four subcategories of negative bias, and find that demanding unjustified cross-lingual generalization is the most dominant form. We publicly release all resources to support work on fairer reviewing practices in NLP and beyond.
- Abstract(参考訳): ピアレビューはNLP出版プロセスにおいて中心的な役割を果たすが、様々なバイアスに影響を受けやすい。
そこで本研究では,研究対象の言語(LoS)バイアスについて検討し,その科学的メリットではなく,研究対象の言語(s)に基づいて,レビュアーが論文を評価する傾向について考察した。
ガイドラインに明示的にフラグ付けされているにもかかわらず、そのようなバイアスは理解されていない。
それまでの作業では、このようなコメントを、弱い、あるいは建設的でないレビューのより広いカテゴリの一部として扱い、バイアスの明確な形式として定義することはなかった。
我々は,LoSバイアスを初めて体系的に評価し,否定型と肯定型を区別し,人間の注釈付きデータセットLOBSTER(Language-Of-study Bias in ScienTific pEer Review)と検出のための87.37マクロF1を実現する方法を紹介する。
我々は15,645のレビューを分析し、LoSに対する負のバイアスと正のバイアスの差を推定し、非英語論文が英語のみのものよりもかなり高いバイアス率に直面し、負のバイアスが常に正のバイアスを上回ることを発見した。
最後に、負バイアスの4つのサブカテゴリを特定し、不当な言語間一般化を要求することが最も支配的な形式であることを示す。
NLP以降のフェアアレビュープラクティスの開発を支援するため、すべてのリソースを公開しています。
関連論文リスト
- Cross-Language Bias Examination in Large Language Models [37.21579885190632]
本研究では,大規模言語モデルにおけるバイアス評価のための,革新的な多言語バイアス評価フレームワークを提案する。
プロンプトと単語リストを5つの対象言語に翻訳することにより、言語間で異なる種類のバイアスを比較する。
例えば、アラビア語とスペイン語はステレオタイプバイアスのレベルが常に高く、中国語と英語はバイアスのレベルが低い。
論文 参考訳(メタデータ) (2025-12-17T23:22:03Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Semantic Properties of cosine based bias scores for word embeddings [48.0753688775574]
本稿では,バイアスの定量化に有効なバイアススコアの要件を提案する。
これらの要件について,コサインに基づくスコアを文献から分析する。
これらの結果は、バイアススコアの制限がアプリケーションケースに影響を及ぼすことを示す実験で裏付けられている。
論文 参考訳(メタデータ) (2024-01-27T20:31:10Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Sociodemographic Bias in Language Models: A Survey and Forward Path [7.337228289111424]
言語モデル(LM)におけるソシオデモグラフィーバイアスは、現実世界の環境に配置した場合に害を与える可能性がある。
本稿では,過去10年間のLMにおける社会デマトグラフィーバイアス研究の包括的調査について述べる。
論文 参考訳(メタデータ) (2023-06-13T22:07:54Z) - Differential Bias: On the Perceptibility of Stance Imbalance in
Argumentation [35.2494622378896]
絶対バイアス分類”が有望な目標かどうかを問う。
偏見のない文章と偏見のないテキストが主観的であるかどうかを判定する。
この種のバイアスモデルの前提条件は、人間がそもそも相対的なバイアスの差を知覚する能力である。
論文 参考訳(メタデータ) (2022-10-13T12:48:07Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。