論文の概要: ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer
Reviews
- arxiv url: http://arxiv.org/abs/2306.12587v1
- Date: Wed, 21 Jun 2023 22:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:06:05.896567
- Title: ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer
Reviews
- Title(参考訳): ARIES:ピーアレビューに応えて作られた学術論文のコーパス
- Authors: Mike D'Arcy, Alexis Ross, Erin Bransom, Bailey Kuehl, Jonathan Bragg,
Tom Hope, Doug Downey
- Abstract要約: 本稿では,このタスクを大規模言語モデルに適用し,レビューコメントと対応する論文編集のデータセットであるARIESをリリースする。
私たちは、モデルがコメントに対応する編集を識別するのに苦労していることに気付きました。
GPT-4は、しばしば表面レベルでコメントに対処することに成功したが、根底にある意図よりもフィードバックの言葉に固執する。
- 参考スコア(独自算出の注目度): 19.68152108760845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Revising scientific papers based on peer feedback is a challenging task that
requires not only deep scientific knowledge and reasoning, but also the ability
to recognize the implicit requests in high-level feedback and to choose the
best of many possible ways to update the manuscript in response. We introduce
this task for large language models and release ARIES, a dataset of review
comments and their corresponding paper edits, to enable training and evaluating
models. We study two versions of the task: comment-edit alignment and edit
generation, and evaluate several baselines, including GPT-4. We find that
models struggle even to identify the edits that correspond to a comment,
especially in cases where the comment is phrased in an indirect way or where
the edit addresses the spirit of a comment but not the precise request. When
tasked with generating edits, GPT-4 often succeeds in addressing comments on a
surface level, but it rigidly follows the wording of the feedback rather than
the underlying intent, and includes fewer technical details than human-written
edits. We hope that our formalization, dataset, and analysis will form a
foundation for future work in this area.
- Abstract(参考訳): 相互フィードバックに基づく科学論文の改訂は、深い科学的知識と推論だけでなく、高いレベルのフィードバックで暗黙の要求を認識し、応答して原稿を更新するための最善の方法を選択する能力を必要とする困難な課題である。
本稿では,このタスクを大規模言語モデルに適用し,レビューコメントとそれに対応する論文編集のデータセットであるARIESをリリースし,モデルのトレーニングと評価を可能にする。
タスクの2つのバージョンについて検討した: コメント編集アライメントと編集生成、gpt-4を含むいくつかのベースラインの評価。
特に、コメントが間接的にフレーズされている場合や、編集がコメントの精神に対処しているが正確な要求ではない場合において、モデルがコメントに対応する編集を識別することさえ困難であることがわかった。
編集のタスクを行う場合、GPT-4は表面レベルでコメントに対処することに成功したが、基礎となる意図よりもフィードバックの言葉に固執し、人間による編集よりも技術的な詳細は少ない。
当社の形式化、データセット、分析が、この分野における今後の作業の基盤となることを願っています。
関連論文リスト
- CASIMIR: A Corpus of Scientific Articles enhanced with Multiple
Author-Integrated Revisions [8.050416164183485]
本稿では,学術論文の執筆過程の改訂段階について,原文資料を提案する。
この新しいデータセットはCASIMIRと呼ばれ、OpenReviewの15,646の科学論文の改訂版とピアレビューを含んでいる。
論文 参考訳(メタデータ) (2024-03-01T03:07:32Z) - XATU: A Fine-grained Instruction-based Benchmark for Explainable Text
Updates [8.368558087934101]
本稿では,微粒な命令ベースの説明可能なテキスト編集用に設計された最初のベンチマークであるXATUを紹介する。
XATUは、語彙、構文、意味論、知識集約的な編集を取り入れ、幅広いトピックやテキストタイプをカバーしている。
既存のオープンおよびクローズドな大規模言語モデルをベンチマークに対して評価することにより、命令チューニングの有効性と、様々な編集タスクにおける基礎となるアーキテクチャの影響を実証する。
論文 参考訳(メタデータ) (2023-09-20T04:58:59Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - To Revise or Not to Revise: Learning to Detect Improvable Claims for
Argumentative Writing Support [20.905660642919052]
特定の修正が必要な議論的クレームを特定するための主な課題について検討する。
本稿では,リビジョン距離に基づく新しいサンプリング戦略を提案する。
文脈情報とドメイン知識を用いることで、予測結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2023-05-26T10:19:54Z) - Scientific Opinion Summarization: Meta-review Generation with
Checklist-guided Iterative Introspection [61.99041542129813]
本稿では,論文レビューをメタレビューに合成する,科学的意見要約の課題を提案する。
39のカンファレンスから10,989のペーパーメタレビューと40,903のペーパーレビューをカバーする新しいORSUMデータセットを紹介した。
結論として,(1) 人書き要約はガイドラインに従わないものが多いため,必ずしも信頼できないものであって,(2) 課題分解と反復的自己調整の組み合わせは,有望な議論参加能力を示している。
論文 参考訳(メタデータ) (2023-05-24T02:33:35Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - PEER: A Collaborative Language Model [70.11876901409906]
PEER(コラボレーティブ言語モデル)は,記述プロセス全体を模倣した言語モデルである。
PEERは、ドラフトの作成、提案の追加、編集の提案、アクションの説明を提供することができる。
PEERは様々な領域にまたがって高い性能を示し,編集作業を行う。
論文 参考訳(メタデータ) (2022-08-24T16:56:47Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Read, Revise, Repeat: A System Demonstration for Human-in-the-loop
Iterative Text Revision [11.495407637511878]
本稿では,リピート・リバイス・リピート・リピート・リピート (R3) によるヒューマン・イン・ザ・ループ・イテレーティブ・テキスト・リフレクションシステムを提案する。
R3は、モデル生成のリビジョンとユーザからのフィードバックを読み、文書を改訂し、人間と機械の相互作用を繰り返すことで、人間の最小限の努力で高品質なテキストリビジョンを実現することを目的としている。
論文 参考訳(メタデータ) (2022-04-07T18:33:10Z) - Understanding Iterative Revision from Human-Written Text [10.714872525208385]
IteraTeRは、反復的に修正されたテキストの最初の大規模、複数ドメイン、編集意図の注釈付きコーパスである。
テキストのリビジョンプロセスをよりよく理解し、編集意図と執筆品質の間に重要なつながりを築き上げます。
論文 参考訳(メタデータ) (2022-03-08T01:47:42Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。