Fugu-MT 論文翻訳(概要): Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback

論文の概要: Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback

arxiv url: http://arxiv.org/abs/2602.10118v1
Date: Sat, 17 Jan 2026 20:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-15 14:54:53.708076
Title: Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback
Title（参考訳）: レビュアーのレビュー: LLMガイドによるフィードバックによるピアレビューの品質向上
Authors: Sukannya Purkayastha, Qile Wan, Anne Lauscher, Lizhen Qu, Iryna Gurevych,
Abstract要約: レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
参考スコア（独自算出の注目度）: 75.31379834079648
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Peer review is central to scientific quality, yet reliance on simple heuristics -- lazy thinking -- has lowered standards. Prior work treats lazy thinking detection as a single-label task, but review segments may exhibit multiple issues, including broader clarity problems, or specificity issues. Turning detection into actionable improvements requires guideline-aware feedback, which is currently missing. We introduce an LLM-driven framework that decomposes reviews into argumentative segments, identifies issues via a neurosymbolic module combining LLM features with traditional classifiers, and generates targeted feedback using issue-specific templates refined by a genetic algorithm. Experiments show our method outperforms zero-shot LLM baselines and improves review quality by up to 92.4\%. We also release LazyReviewPlus, a dataset of 1,309 sentences labeled for lazy thinking and specificity.
Abstract（参考訳）: ピアレビューは科学的品質の中心であるが、単純なヒューリスティック(怠慢な思考)に依存しているため、基準は引き下げられた。従来の作業では、遅延思考検出を単一ラベルタスクとして扱うが、レビューセグメントには、より広範な明確性問題や特異性問題など、複数の問題がある可能性がある。検出を実行可能な改善に変換するには、現在欠落しているガイドライン対応のフィードバックが必要だ。 LLMの特徴を従来の分類器と組み合わせたニューロシンボリックモジュールを用いて、レビューを議論的セグメントに分解するLLM駆動フレームワークを導入し、遺伝的アルゴリズムにより改良された問題固有のテンプレートを用いてターゲットフィードバックを生成する。実験の結果,本手法はゼロショットLCMのベースラインを上回り,レビュー品質を最大92.4\%向上することがわかった。遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。

関連論文リスト

Rectify Evaluation Preference: Improving LLMs' Critique on Math Reasoning via Perplexity-aware Reinforcement Learning [34.43632129774481]
本稿では,不均衡な評価嗜好の潜在的な理由を定量化し,検討する。理由の分析により、評価の嗜好を正すために、新しいパープレキシティ対応強化学習アルゴリズムが提案されている。
論文参考訳（メタデータ） (2025-11-13T13:37:45Z)
When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。 ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文参考訳（メタデータ） (2025-09-12T00:57:50Z)
DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文参考訳（メタデータ） (2025-05-01T17:03:17Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
Mind the Blind Spots: A Focus-Level Evaluation Framework for LLM Reviews [45.15786181058354]
大きな言語モデル(LLM)は、レビューを自動的にドラフトできる。 LLM生成レビューが信頼できるかどうかを決定するには、体系的な評価が必要である。注意の正規分布として焦点を運用する焦点レベル評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-02-24T12:05:27Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。