論文の概要: LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
- arxiv url: http://arxiv.org/abs/2504.11042v1
- Date: Tue, 15 Apr 2025 10:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:34.218457
- Title: LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
- Title(参考訳): LazyReview - NLP Peer Reviewsにおける遅延思考のデータセット
- Authors: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych,
- Abstract要約: この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。
命令ベースのデータセットの微調整により、パフォーマンスが10~20ポイント向上する。
- 参考スコア(独自算出の注目度): 74.87393214734114
- License:
- Abstract: Peer review is a cornerstone of quality control in scientific publishing. With the increasing workload, the unintended use of `quick' heuristics, referred to as lazy thinking, has emerged as a recurring issue compromising review quality. Automated methods to detect such heuristics can help improve the peer-reviewing process. However, there is limited NLP research on this issue, and no real-world dataset exists to support the development of detection tools. This work introduces LazyReview, a dataset of peer-review sentences annotated with fine-grained lazy thinking categories. Our analysis reveals that Large Language Models (LLMs) struggle to detect these instances in a zero-shot setting. However, instruction-based fine-tuning on our dataset significantly boosts performance by 10-20 performance points, highlighting the importance of high-quality training data. Furthermore, a controlled experiment demonstrates that reviews revised with lazy thinking feedback are more comprehensive and actionable than those written without such feedback. We will release our dataset and the enhanced guidelines that can be used to train junior reviewers in the community. (Code available here: https://github.com/UKPLab/arxiv2025-lazy-review)
- Abstract(参考訳): ピアレビューは、科学出版における品質管理の基礎である。
作業負荷の増加に伴い、遅延思考と呼ばれる意図しない'クイック'ヒューリスティックスの使用が、レビュー品質を損なう繰り返し問題として現れました。
このようなヒューリスティックを検出する自動手法は、ピアレビュープロセスを改善するのに役立つ。
しかし、この問題に関するNLP研究は限られており、検出ツールの開発を支援するために現実世界のデータセットは存在しない。
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
解析の結果,Large Language Models (LLM) はゼロショット環境でこれらのインスタンスを検出するのに苦労していることがわかった。
しかし、私たちのデータセットの命令ベースの微調整は、10~20のパフォーマンスポイントを大幅に向上させ、高品質なトレーニングデータの重要性を強調します。
さらに、制御された実験では、遅延思考フィードバックで改訂されたレビューは、そのようなフィードバックなしで書かれたレビューよりも包括的で実行可能であることが示された。
私たちはデータセットと、コミュニティのジュニアレビュアーのトレーニングに使用できる強化されたガイドラインをリリースします。
(コード:https://github.com/UKPLab/arxiv2025-lazy-review)
関連論文リスト
- Too Noisy To Learn: Enhancing Data Quality for Code Review Comment Generation [2.990411348977783]
オープンソースのデータセットは、自動コードレビュータスクのためのニューラルネットワークのトレーニングに使用される。
これらのデータセットには、クリーニングメソッドにもかかわらず持続する大量のノイズの多いコメントが含まれている。
大規模言語モデル(LLM)を用いて,これらのデータセットをさらにクリーン化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T22:48:58Z) - Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and
Bystanders [6.538051328482194]
当社は2018年のRevRecV1以降生産されているレコメンデータを構築しています。
私たちは、レビュアーがファイルの以前のオーサシップに基づいて割り当てられていることに気付きました。
レビューに責任を持つ個人を持つことは、レビューにかかる時間を11%削減する。
論文 参考訳(メタデータ) (2023-12-28T17:55:13Z) - Can GitHub Issues Help in App Review Classifications? [0.7366405857677226]
GitHubイシューから抽出した情報を活用することでラベル付きデータセットの拡張を支援する新しいアプローチを提案する。
以上の結果から,データ拡張にラベル付き問題を用いることで,F1スコアが6.3,機能要求が7.2に向上することが示された。
論文 参考訳(メタデータ) (2023-08-27T22:01:24Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Learning Opinion Summarizers by Selecting Informative Reviews [81.47506952645564]
31,000以上の製品のユーザレビューと組み合わせた大規模な要約データセットを収集し、教師付きトレーニングを可能にします。
多くのレビューの内容は、人間が書いた要約には反映されず、したがってランダムなレビューサブセットで訓練された要約者は幻覚する。
我々は、これらのサブセットで表現された意見を要約し、レビューの情報的サブセットを選択するための共同学習としてタスクを定式化する。
論文 参考訳(メタデータ) (2021-09-09T15:01:43Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z) - How Useful are Reviews for Recommendation? A Critical Review and
Potential Improvements [8.471274313213092]
本稿では,レビューテキストを用いてレコメンデーションシステムの改善を目指す,新たな作業体系について検討する。
実験条件やデータ前処理に変化はあるものの, 論文間で結果がコピーされていることから, 報告結果にいくつかの相違点がみられた。
さらなる調査では、リコメンデーションのためのユーザレビューの"重要"に関して、はるかに大きな問題に関する議論が求められている。
論文 参考訳(メタデータ) (2020-05-25T16:30:05Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。