論文の概要: Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach
- arxiv url: http://arxiv.org/abs/2211.06398v1
- Date: Mon, 7 Nov 2022 16:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:34:00.853334
- Title: Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach
- Title(参考訳): ピアレビューにおけるフェアネス格差の調査--言語モデル強化アプローチ
- Authors: Jiayao Zhang, Hongming Zhang, Zhun Deng, Dan Roth
- Abstract要約: 我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
- 参考スコア(独自算出の注目度): 77.61131357420201
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Double-blind peer review mechanism has become the skeleton of academic
research across multiple disciplines including computer science, yet several
studies have questioned the quality of peer reviews and raised concerns on
potential biases in the process. In this paper, we conduct a thorough and
rigorous study on fairness disparities in peer review with the help of large
language models (LMs). We collect, assemble, and maintain a comprehensive
relational database for the International Conference on Learning
Representations (ICLR) conference from 2017 to date by aggregating data from
OpenReview, Google Scholar, arXiv, and CSRanking, and extracting high-level
features using language models. We postulate and study fairness disparities on
multiple protective attributes of interest, including author gender, geography,
author, and institutional prestige. We observe that the level of disparity
differs and textual features are essential in reducing biases in the predictive
modeling. We distill several insights from our analysis on study the peer
review process with the help of large LMs. Our database also provides avenues
for studying new natural language processing (NLP) methods that facilitate the
understanding of the peer review mechanism. We study a concrete example towards
automatic machine review systems and provide baseline models for the review
generation and scoring tasks such that the database can be used as a benchmark.
- Abstract(参考訳): 二重盲検レビュー機構は、コンピュータ科学を含む複数の分野にわたる学術研究の骨格となっているが、いくつかの研究はピアレビューの品質に疑問を呈し、プロセスの潜在的なバイアスに対する懸念を提起している。
本稿では,大言語モデル(lms)の助けを借りて,ピアレビューにおける公平性格差に関する徹底的かつ厳密な研究を行う。
我々は、2017年から現在までのiclr(international conference on learning representations)カンファレンスにおいて、openreview、google scholar、arxiv、csrankingのデータを集約し、言語モデルを用いたハイレベルな機能を抽出し、包括的なリレーショナルデータベースを収集、組み立て、保守する。
我々は、著者の性別、地理、著者、制度上の権威を含む、複数の保護的属性に関する公平性の違いを仮定し、研究する。
予測モデルにおけるバイアスの低減には, 差のレベルが異なり, テキストの特徴が不可欠である。
我々は,大規模なlmsの助けを借りてピアレビュープロセスの研究に関する分析から,いくつかの知見を抽出した。
我々のデータベースは、ピアレビューメカニズムの理解を容易にする新しい自然言語処理(NLP)手法の研究の道筋も提供している。
本稿では,自動機械レビューシステムに対する具体的な事例を考察し,データベースをベンチマークとして使用できるようなレビュー生成およびスコアリングタスクのベースラインモデルを提供する。
関連論文リスト
- Why do you cite? An investigation on citation intents and decision-making classification processes [1.7812428873698407]
本研究は,引用意図を信頼して分類することの重要性を強調する。
本稿では,citation Intent Classification (CIC) のための高度なアンサンブル戦略を用いた研究について述べる。
我々のモデルの1つは、SciCiteベンチマークで89.46%のマクロF1スコアを持つ新しい最先端(SOTA)として設定されている。
論文 参考訳(メタデータ) (2024-07-18T09:29:33Z) - ElicitationGPT: Text Elicitation Mechanisms via Language Models [12.945581341789431]
本稿では,大規模言語モデルに対するドメイン知識のないクエリを用いて,提案したテキストを真理テキストに対してスコアリングする機構について述べる。
ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアとの比較により、経験的評価を行う。
論文 参考訳(メタデータ) (2024-06-13T17:49:10Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - NLPeer: A Unified Resource for the Computational Study of Peer Review [58.71736531356398]
NLPeer - 5万以上の論文と5つの異なる会場からの1万1千件のレビューレポートからなる、初めて倫理的にソースされたマルチドメインコーパス。
従来のピアレビューデータセットを拡張し、解析および構造化された論文表現、豊富なメタデータ、バージョニング情報を含む。
我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道のりをたどっている。
論文 参考訳(メタデータ) (2022-11-12T12:29:38Z) - Predicting the Reproducibility of Social and Behavioral Science Papers
Using Supervised Learning Models [21.69933721765681]
本論文では,学術研究から5種類の特徴を抽出し,公開研究クレームの評価を支援するフレームワークを提案する。
個々の特徴と人間評価の基底真理ラベルのセットを予測するための重要性のペアワイズ相関を分析します。
論文 参考訳(メタデータ) (2021-04-08T00:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。