論文の概要: Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach
- arxiv url: http://arxiv.org/abs/2211.06398v1
- Date: Mon, 7 Nov 2022 16:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:34:00.853334
- Title: Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach
- Title(参考訳): ピアレビューにおけるフェアネス格差の調査--言語モデル強化アプローチ
- Authors: Jiayao Zhang, Hongming Zhang, Zhun Deng, Dan Roth
- Abstract要約: 我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
- 参考スコア(独自算出の注目度): 77.61131357420201
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Double-blind peer review mechanism has become the skeleton of academic
research across multiple disciplines including computer science, yet several
studies have questioned the quality of peer reviews and raised concerns on
potential biases in the process. In this paper, we conduct a thorough and
rigorous study on fairness disparities in peer review with the help of large
language models (LMs). We collect, assemble, and maintain a comprehensive
relational database for the International Conference on Learning
Representations (ICLR) conference from 2017 to date by aggregating data from
OpenReview, Google Scholar, arXiv, and CSRanking, and extracting high-level
features using language models. We postulate and study fairness disparities on
multiple protective attributes of interest, including author gender, geography,
author, and institutional prestige. We observe that the level of disparity
differs and textual features are essential in reducing biases in the predictive
modeling. We distill several insights from our analysis on study the peer
review process with the help of large LMs. Our database also provides avenues
for studying new natural language processing (NLP) methods that facilitate the
understanding of the peer review mechanism. We study a concrete example towards
automatic machine review systems and provide baseline models for the review
generation and scoring tasks such that the database can be used as a benchmark.
- Abstract(参考訳): 二重盲検レビュー機構は、コンピュータ科学を含む複数の分野にわたる学術研究の骨格となっているが、いくつかの研究はピアレビューの品質に疑問を呈し、プロセスの潜在的なバイアスに対する懸念を提起している。
本稿では,大言語モデル(lms)の助けを借りて,ピアレビューにおける公平性格差に関する徹底的かつ厳密な研究を行う。
我々は、2017年から現在までのiclr(international conference on learning representations)カンファレンスにおいて、openreview、google scholar、arxiv、csrankingのデータを集約し、言語モデルを用いたハイレベルな機能を抽出し、包括的なリレーショナルデータベースを収集、組み立て、保守する。
我々は、著者の性別、地理、著者、制度上の権威を含む、複数の保護的属性に関する公平性の違いを仮定し、研究する。
予測モデルにおけるバイアスの低減には, 差のレベルが異なり, テキストの特徴が不可欠である。
我々は,大規模なlmsの助けを借りてピアレビュープロセスの研究に関する分析から,いくつかの知見を抽出した。
我々のデータベースは、ピアレビューメカニズムの理解を容易にする新しい自然言語処理(NLP)手法の研究の道筋も提供している。
本稿では,自動機械レビューシステムに対する具体的な事例を考察し,データベースをベンチマークとして使用できるようなレビュー生成およびスコアリングタスクのベースラインモデルを提供する。
関連論文リスト
- A Literature Review of Literature Reviews in Pattern Analysis and
Machine Intelligence [62.90682521144006]
この分析は、様々な観点からPAMI分野のレビューを徹底的にレビューすることを目的としている。
書評を自動評価するために,大規模言語モデルを用いた書評指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context
Learning in Factuality Evaluation [22.67877393864983]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Artificial intelligence technologies to support research assessment: A
review [10.203602318836444]
この文献レビューは、記事のテキストから、より高いインパクトやより高い品質の研究に関連する指標を特定する。
論文やカンファレンス論文の引用数や品質スコアを予測するために機械学習技術を使用した研究が含まれている。
論文 参考訳(メタデータ) (2022-12-11T06:58:39Z) - NLPeer: A Unified Resource for the Computational Study of Peer Review [58.71736531356398]
NLPeer - 5万以上の論文と5つの異なる会場からの1万1千件のレビューレポートからなる、初めて倫理的にソースされたマルチドメインコーパス。
従来のピアレビューデータセットを拡張し、解析および構造化された論文表現、豊富なメタデータ、バージョニング情報を含む。
我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道のりをたどっている。
論文 参考訳(メタデータ) (2022-11-12T12:29:38Z) - Predicting the Reproducibility of Social and Behavioral Science Papers
Using Supervised Learning Models [21.69933721765681]
本論文では,学術研究から5種類の特徴を抽出し,公開研究クレームの評価を支援するフレームワークを提案する。
個々の特徴と人間評価の基底真理ラベルのセットを予測するための重要性のペアワイズ相関を分析します。
論文 参考訳(メタデータ) (2021-04-08T00:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。