論文の概要: GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses
- arxiv url: http://arxiv.org/abs/2604.11924v1
- Date: Mon, 13 Apr 2026 18:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.053329
- Title: GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses
- Title(参考訳): GoodPoint: 著者の回答から構成的科学論文のフィードバックを学ぶ
- Authors: Jimin Mun, Chani Jung, Xuhui Zhou, Hyunwoo Kim, Maarten Sap,
- Abstract要約: 著者中心の2つの軸と著者行動によるフィードバックの有効性を運用する。
グッドポイントで訓練されたQwen3-8Bは、予測成功率をベースモデルよりも83.7%向上させる。
- 参考スコア(独自算出の注目度): 31.838094927464457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLMs hold significant potential to transform scientific research, we advocate for their use to augment and empower researchers rather than to automate research without human oversight. To this end, we study constructive feedback generation, the task of producing targeted, actionable feedback that helps authors improve both their research and its presentation. In this work, we operationalize the effectiveness of feedback along two author-centric axes-validity and author action. We first curate GoodPoint-ICLR, a dataset of 19K ICLR papers with reviewer feedback annotated along both dimensions using author responses. Building on this, we introduce GoodPoint, a training recipe that leverages success signals from author responses through fine-tuning on valid and actionable feedback, together with preference optimization on both real and synthetic preference pairs. Our evaluation on a benchmark of 1.2K ICLR papers shows that a GoodPoint-trained Qwen3-8B improves the predicted success rate by 83.7% over the base model and sets a new state-of-the-art among LLMs of similar size in feedback matching on a golden human feedback set, even surpassing Gemini-3-flash in precision. We further validate these findings through an expert human study, demonstrating that GoodPoint consistently delivers higher practical value as perceived by authors.
- Abstract(参考訳): LLMは、科学的研究を変革する大きな可能性を秘めているが、我々は、人間の監督なしに研究を自動化するのではなく、研究者を増強し、力づけるために使用することを提唱している。
この目的のために,著者が研究とプレゼンテーションの両方を改善するのに役立つ,目標とする,行動可能なフィードバックを生成するタスクである建設的フィードバック生成について検討する。
本研究では,著者中心の2つの軸の妥当性と著者行動に沿ったフィードバックの有効性を運用する。
まず、19K ICLR論文のデータセットであるGoodPoint-ICLRを、著者の反応を用いて両方の次元に沿って注釈付けされたレビュアーフィードバックでキュレートする。
これに基づいて,著者の反応から得られた成功信号を利用した学習レシピであるGoodPointを紹介し,実と合成の両方の選好ペアの選好最適化とともに,有効で実行可能なフィードバックを微調整する。
1.2K ICLRのベンチマークでは、GoodPointでトレーニングされたQwen3-8Bは、ベースモデルよりも83.7%向上し、黄金のフィードバックセットに類似した大きさのLLMにおいて、GoldPointでトレーニングされたQwen3-8Bが、精度でGemini-3-flashを上回り、新しい最先端の技術を設定できることが示されている。
著者が認識したように,GoodPointが常に高い実践的価値を提供することを示す,専門家による人間の研究を通じて,これらの知見をさらに検証する。
関連論文リスト
- A Systematic Study of Pseudo-Relevance Feedback with LLMs [49.53124785319461]
大規模言語モデル(LLM)上に構築された擬似関連フィードバック(PRF)は、2つの重要な設計次元に沿って構成できる。
制御実験により,フィードバック源の選択とフィードバックモデルの選択がPRFの有効性に与える影響について検討した。
論文 参考訳(メタデータ) (2026-03-11T17:31:50Z) - APRES: An Agentic Paper Revision and Evaluation System [44.44345338738518]
科学者が自身の仕事を伝え、コミュニティからフィードバックを受け取るための第一の方法は、ピアレビューである。
本稿では,Large Language Models (LLMs) を利用した新しいAPRES手法を提案する。
提案手法は,将来的な引用数を高い精度で予測できるルーリックを発見し,APRESと統合して論文を改訂し,その品質と影響を高める。
論文 参考訳(メタデータ) (2026-03-03T16:29:13Z) - Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review [53.99984738447279]
最近の作業は、このタスクを著者の専門知識と意図を活かした自動テキスト生成として捉えている。
本稿では,著者の明示的な入力,多属性制御,評価誘導による改良を統合したREspGenについて紹介する。
この定式化をサポートするために、アライメントされたレビュー-レスポンス-リビジョン三つ子の最初の大規模データセットであるRe$3$Alignを構築した。
論文 参考訳(メタデータ) (2026-01-19T14:07:10Z) - Exposía: Academic Writing Assessment of Exposés and Peer Feedback [56.428320613219306]
高等教育における文章とフィードバックアセスメントを結びつける最初の公開データセットであるExposaを提示する。
我々はExposaを使って,(1)提案の自動スコアリング,(2)学生レビューの2つのタスクに対して,最先端のオープンソース大言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2026-01-10T11:33:26Z) - Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise [41.16092952642748]
本研究では,Large Language Models (LLMs) で使用されているれんがを精製することにより,AES(Automated Scoring)を向上する可能性について検討する。
GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructによるデータセットの実験では、最大0.19と0.47の改善が得られた。
論文 参考訳(メタデータ) (2025-10-10T06:05:38Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Understanding and Supporting Peer Review Using AI-reframed Positive Summary [18.686807993563168]
本研究は,筆記作業のピアレビューに自動生成された肯定的な要約を付加することの影響について検討した。
さもなくば過酷なフィードバックにAIを再構成した肯定的な要約を加えると、著者の批判的受け入れが増大することがわかった。
我々は、ピアフィードバックにおけるAIの利用の意味について論じ、それが批判的受容にどのように影響するかに注目し、研究コミュニティを支援する。
論文 参考訳(メタデータ) (2025-03-13T11:22:12Z) - Can AI Solve the Peer Review Crisis? A Large Scale Cross Model Experiment of LLMs' Performance and Biases in Evaluating over 1000 Economics Papers [25.2441171957968]
本研究では,大規模言語モデル(LLM)による学術的査読プロセスの強化の可能性について,系統的バイアスを伴わずに,経済研究の質を確実に評価することによって検討する。
2つの相補的な実験で4つのLLMの大規模評価を行った。
我々は、GPT、Gemma、LLaMAが、匿名で提示された同じ論文に対して、上位の男性作家やエリート機関からの投稿に対して、かなり高い評価を割り当てていることを発見した。
論文 参考訳(メタデータ) (2025-01-31T04:04:02Z) - Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions [6.216542656489173]
本稿では,LM シミュレーションによる学生のリビジョンの学習を通じてフィードバックを生成できる ProF を提案する。
本稿では,PROFの有効性を実証的に検証し,本手法が学生の筆跡改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-10T15:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。