Fugu-MT 論文翻訳(概要): Are the confidence scores of reviewers consistent with the review content? Evidence from top conference proceedings in AI

論文の概要: Are the confidence scores of reviewers consistent with the review content? Evidence from top conference proceedings in AI

arxiv url: http://arxiv.org/abs/2505.15031v1
Date: Wed, 21 May 2025 02:26:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.819677
Title: Are the confidence scores of reviewers consistent with the review content? Evidence from top conference proceedings in AI
Title（参考訳）: レビュー内容とレビュアーの信頼スコアは一致しているか?AIの最上位会議手続きからの証拠
Authors: Wenqing Wu, Haixu Xi, Chengzhi Zhang,
Abstract要約: 本研究は,ディープラーニングとNLP会議データを用いて,単語,文,アスペクトレベルでの一貫性を評価する。我々は、ヘッジ文やアスペクトを検出するためにディープラーニングを使用し、レポートの長さ、ヘッジワード/文頻度、アスペクト参照、感情を分析し、テキストスコアアライメントを評価する。
参考スコア（独自算出の注目度）: 5.299410398338231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Peer review is vital in academia for evaluating research quality. Top AI conferences use reviewer confidence scores to ensure review reliability, but existing studies lack fine-grained analysis of text-score consistency, potentially missing key details. This work assesses consistency at word, sentence, and aspect levels using deep learning and NLP conference review data. We employ deep learning to detect hedge sentences and aspects, then analyze report length, hedge word/sentence frequency, aspect mentions, and sentiment to evaluate text-score alignment. Correlation, significance, and regression tests examine confidence scores' impact on paper outcomes. Results show high text-score consistency across all levels, with regression revealing higher confidence scores correlate with paper rejection, validating expert assessments and peer review fairness.
Abstract（参考訳）: ピーアレビューは研究の質を評価するために学術において不可欠である。トップAIカンファレンスは、レビューの信頼性を確保するためにレビュアの信頼性スコアを使用するが、既存の研究ではテキストスコアの一貫性の詳細な分析がなく、重要な詳細が欠落している可能性がある。本研究は,ディープラーニングとNLP会議レビューデータを用いて,単語,文,アスペクトレベルでの一貫性を評価する。我々は、ヘッジ文やアスペクトを検出するためにディープラーニングを使用し、レポートの長さ、ヘッジワード/文頻度、アスペクト参照、感情を分析し、テキストスコアアライメントを評価する。相関、重要性、回帰テストは、紙結果に対する信頼度スコアの影響を調べる。その結果、すべてのレベルにおいて高いテキストスコア一貫性が示され、レグレッションは高い信頼度スコアが紙の拒絶、専門家の評価の検証、ピアレビューフェアネスと相関していることが判明した。

関連論文リスト

Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文参考訳（メタデータ） (2025-02-03T07:43:27Z)
Paper Quality Assessment based on Individual Wisdom Metrics from Open Peer Review [3.802113616844045]
本研究では,レビュアの品質を推定するオープンなボトムアッププロセスを通じて,科学的ピアレビューの精度と効率を向上させるためのデータ駆動フレームワークを提案する。我々は,2つの主要な学術会議から開かれたピアレビューデータを分析し,レビュアー固有の品質スコアが紙の品質評価の信頼性を著しく向上することを示した。
論文参考訳（メタデータ） (2025-01-22T17:00:27Z)
STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。 STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文参考訳（メタデータ） (2024-09-09T06:55:37Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
When Reviewers Lock Horn: Finding Disagreement in Scientific Peer Reviews [24.875901048855077]
本稿では,ある記事のレビュアー間での矛盾を自動的に識別する新しいタスクを紹介する。我々の知識を最大限に活用するために、ピアレビュアー間での意見の不一致を自動的に識別する最初の試みを行う。
論文参考訳（メタデータ） (2023-10-28T11:57:51Z)
Student's t-Distribution: On Measuring the Inter-Rater Reliability When the Observations are Scarce [14.20687200301588]
自然言語処理(NLP)において、我々は常にゴールデンクオリティ評価法として人間の判断に頼っている。本研究は,データポイントが1つしかない場合に,測定値の信頼区間を推定する方法を提案する。これら2つのデータポイントと品質評価の信頼区間(CI)を用いてIRRスコアを測定する方法について説明する。
論文参考訳（メタデータ） (2023-03-08T11:51:26Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)
Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文参考訳（メタデータ） (2022-10-21T07:22:43Z)
Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-02T19:41:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。