Fugu-MT 論文翻訳(概要): ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews

論文の概要: ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews

arxiv url: http://arxiv.org/abs/2306.12587v1
Date: Wed, 21 Jun 2023 22:00:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 16:06:05.896567
Title: ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews
Title（参考訳）: ARIES:ピーアレビューに応えて作られた学術論文のコーパス
Authors: Mike D'Arcy, Alexis Ross, Erin Bransom, Bailey Kuehl, Jonathan Bragg, Tom Hope, Doug Downey
Abstract要約: 本稿では,このタスクを大規模言語モデルに適用し,レビューコメントと対応する論文編集のデータセットであるARIESをリリースする。私たちは、モデルがコメントに対応する編集を識別するのに苦労していることに気付きました。 GPT-4は、しばしば表面レベルでコメントに対処することに成功したが、根底にある意図よりもフィードバックの言葉に固執する。
参考スコア（独自算出の注目度）: 19.68152108760845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Revising scientific papers based on peer feedback is a challenging task that requires not only deep scientific knowledge and reasoning, but also the ability to recognize the implicit requests in high-level feedback and to choose the best of many possible ways to update the manuscript in response. We introduce this task for large language models and release ARIES, a dataset of review comments and their corresponding paper edits, to enable training and evaluating models. We study two versions of the task: comment-edit alignment and edit generation, and evaluate several baselines, including GPT-4. We find that models struggle even to identify the edits that correspond to a comment, especially in cases where the comment is phrased in an indirect way or where the edit addresses the spirit of a comment but not the precise request. When tasked with generating edits, GPT-4 often succeeds in addressing comments on a surface level, but it rigidly follows the wording of the feedback rather than the underlying intent, and includes fewer technical details than human-written edits. We hope that our formalization, dataset, and analysis will form a foundation for future work in this area.
Abstract（参考訳）: 相互フィードバックに基づく科学論文の改訂は、深い科学的知識と推論だけでなく、高いレベルのフィードバックで暗黙の要求を認識し、応答して原稿を更新するための最善の方法を選択する能力を必要とする困難な課題である。本稿では,このタスクを大規模言語モデルに適用し,レビューコメントとそれに対応する論文編集のデータセットであるARIESをリリースし,モデルのトレーニングと評価を可能にする。タスクの2つのバージョンについて検討した: コメント編集アライメントと編集生成、gpt-4を含むいくつかのベースラインの評価。特に、コメントが間接的にフレーズされている場合や、編集がコメントの精神に対処しているが正確な要求ではない場合において、モデルがコメントに対応する編集を識別することさえ困難であることがわかった。編集のタスクを行う場合、GPT-4は表面レベルでコメントに対処することに成功したが、基礎となる意図よりもフィードバックの言葉に固執し、人間による編集よりも技術的な詳細は少ない。当社の形式化、データセット、分析が、この分野における今後の作業の基盤となることを願っています。

関連論文リスト

Towards a Principled Evaluation of Knowledge Editors [2.497666465251894]
異なるメトリクスと評価手法と異なる編集バッチサイズを選択することで、知識エディターのランク付けに繋がることを示す。また、最近リリースされたデータセットに好まれる知識編集のための文字列マッチングに基づく評価手法を手作業で評価し、偽陽性となる傾向を明らかにした。
論文参考訳（メタデータ） (2025-07-08T12:37:54Z)
The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文参考訳（メタデータ） (2025-02-16T15:57:55Z)
SEAGraph: Unveiling the Whole Story of Paper Review Comments [26.39115060771725]
従来のピアレビュープロセスでは、著者は曖昧または不十分な詳細なフィードバックを受け取ることが多い。これにより、著者によるレビューコメントの理解を深める方法について、批判的な疑問が持ち上がる。提案するSEAGraphは,レビューの意図を明らかにすることによって,レビューコメントを明確にするための新しいフレームワークである。
論文参考訳（メタデータ） (2024-12-16T16:24:36Z)
Re3: A Holistic Framework and Dataset for Modeling Collaborative Document Revision [62.12545440385489]
共同文書リビジョンを共同で分析するためのフレームワークであるRe3を紹介する。本稿では,Re3-Sciについて紹介する。Re3-Sciは,その行動と意図に応じて手動でラベル付けされた科学的論文の大規模なコーパスである。我々は,新しいデータを用いて,学術領域における共同文書改訂に関する実証的研究を行った。
論文参考訳（メタデータ） (2024-05-31T21:19:09Z)
Automated Focused Feedback Generation for Scientific Writing Assistance [6.559560602099439]
SWIF$2$T:Scientific WrIting Focused Feedback Tool。特定の、実行可能な、一貫性のあるコメントを生成し、科学論文の弱点を特定したり、修正案を提案するように設計されている。科学的論文の弱点を引用し,300件の査読データセットを収集し,人的評価を行う。その結果, SWIF$2$Tのフィードバックは, 他のアプローチと比較して, 特異性, 読みやすさ, 全体的な有用性を示した。
論文参考訳（メタデータ） (2024-05-30T20:56:41Z)
CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions [7.503795054002406]
本稿では,学術論文の執筆過程の改訂段階について,原文資料を提案する。この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。
論文参考訳（メタデータ） (2024-03-01T03:07:32Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。新たに登場したAI生成の文献レビューも評価されている。この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
When Reviewers Lock Horn: Finding Disagreement in Scientific Peer Reviews [24.875901048855077]
本稿では,ある記事のレビュアー間での矛盾を自動的に識別する新しいタスクを紹介する。我々の知識を最大限に活用するために、ピアレビュアー間での意見の不一致を自動的に識別する最初の試みを行う。
論文参考訳（メタデータ） (2023-10-28T11:57:51Z)
Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。 InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文参考訳（メタデータ） (2023-09-27T00:56:17Z)
DocTER: Evaluating Document-based Knowledge Editing [53.14000724633775]
本稿では,手作業で3つの文書をラベル付けするのではなく,簡単にアクセスできる文書を用いた知識編集について検討する。総合的な4つのパースペクティブ評価: 編集成功、局所性、推論、言語間移動。一般的な知識編集手法の実験は、文書による編集が三重項を使用するよりもはるかに大きな課題を示すことを示した。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)
Scientific Opinion Summarization: Paper Meta-review Generation Dataset, Methods, and Evaluation [55.00687185394986]
本稿では,論文レビューをメタレビューに合成する,科学的意見要約の課題を提案する。 ORSUMデータセットは、47のカンファレンスから15,062のメタレビューと57,536の論文レビューをカバーしている。実験の結果,(1)人間による要約は,議論の深みや特定の領域に対するコンセンサスや論争の特定など,必要な基準をすべて満たしていないこと,(2)タスクの分解と反復的自己調整の組み合わせは,意見の強化に強い可能性を示唆している。
論文参考訳（メタデータ） (2023-05-24T02:33:35Z)
Understanding Iterative Revision from Human-Written Text [10.714872525208385]
IteraTeRは、反復的に修正されたテキストの最初の大規模、複数ドメイン、編集意図の注釈付きコーパスである。テキストのリビジョンプロセスをよりよく理解し、編集意図と執筆品質の間に重要なつながりを築き上げます。
論文参考訳（メタデータ） (2022-03-08T01:47:42Z)
Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文参考訳（メタデータ） (2021-01-30T07:16:53Z)
Aspect-based Sentiment Analysis of Scientific Reviews [12.472629584751509]
本研究は,受理論文と受理論文ではアスペクトベース感情の分布が著しく異なることを示す。第2の目的として、論文を閲覧するレビュアーの間での意見の不一致の程度を定量化する。また, 審査員と議長との意見の不一致の程度について検討し, 審査員間の意見の不一致が議長との意見の不一致と関係があることを見出した。
論文参考訳（メタデータ） (2020-06-05T07:06:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。