論文の概要: The Open Review-Based (ORB) dataset: Towards Automatic Assessment of
Scientific Papers and Experiment Proposals in High-Energy Physics
- arxiv url: http://arxiv.org/abs/2312.04576v1
- Date: Wed, 29 Nov 2023 20:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:57:24.329151
- Title: The Open Review-Based (ORB) dataset: Towards Automatic Assessment of
Scientific Papers and Experiment Proposals in High-Energy Physics
- Title(参考訳): open review-based (orb) dataset : 科学論文の自動評価と高エネルギー物理学実験の提案に向けて
- Authors: Jaroslaw Szumega, Lamine Bougueroua, Blerina Gkotse, Pierre Jouvelot,
Federico Ravotti
- Abstract要約: 新しい包括的オープンレビューベースデータセット(ORB)を紹介する。
これには36,000以上の科学論文のキュレートされたリストが含まれ、89,000以上のレビューと最終決定が含まれている。
本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the Open Science approach becoming important for research, the evolution
towards open scientific-paper reviews is making an impact on the scientific
community. However, there is a lack of publicly available resources for
conducting research activities related to this subject, as only a limited
number of journals and conferences currently allow access to their review
process for interested parties. In this paper, we introduce the new
comprehensive Open Review-Based dataset (ORB); it includes a curated list of
more than 36,000 scientific papers with their more than 89,000 reviews and
final decisions. We gather this information from two sources: the
OpenReview.net and SciPost.org websites. However, given the volatile nature of
this domain, the software infrastructure that we introduce to supplement the
ORB dataset is designed to accommodate additional resources in the future. The
ORB deliverables include (1) Python code (interfaces and implementations) to
translate document data and metadata into a structured and high-level
representation, (2) an ETL process (Extract, Transform, Load) to facilitate the
automatic updates from defined sources and (3) data files representing the
structured data. The paper presents our data architecture and an overview of
the collected data along with relevant statistics. For illustration purposes,
we also discuss preliminary Natural-Language-Processing-based experiments that
aim to predict (1) papers' acceptance based on their textual embeddings, and
(2) grading statistics inferred from embeddings as well. We believe ORB
provides a valuable resource for researchers interested in open science and
review, with our implementation easing the use of this data for further
analysis and experimentation. We plan to update ORB as the field matures as
well as introduce new resources even more fitted to dedicated scientific
domains such as High-Energy Physics.
- Abstract(参考訳): オープンサイエンスのアプローチが研究にとって重要になるにつれ、オープンな科学論文レビューへの進化が科学コミュニティに影響を与えている。
しかし、このテーマに関連する研究活動を行うための公的なリソースが不足しており、現在関心のある関係者のレビュープロセスへのアクセスを許可しているジャーナルやカンファレンスは限られている。
本稿では,新たな包括的オープンレビューベースデータセット(ORB)を紹介し,89,000以上のレビューと最終決定を伴う36,000以上の科学論文のキュレートリストを含む。
この情報はOpenReview.netとSciPost.orgの2つのサイトから収集しています。
しかし、このドメインの揮発性の性質を考えると、ORBデータセットを補完するソフトウェアインフラは、将来追加リソースに対応するように設計されている。
ORBの成果物には、(1)文書データとメタデータを構造化された高レベルな表現に変換するPythonコード(インタフェースと実装)、(2)ETLプロセス(Extract, Transform, Load)、(3)構造化されたデータを表すデータファイルからの自動更新を容易にする。
本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
また,本研究では,(1)論文のテキスト組込みに基づく受容予測,(2)組込みから推定された統計値の格付けを目的とした自然言語処理に基づく予備実験についても述べる。
ORBはオープンサイエンスとレビューに関心のある研究者に貴重なリソースを提供し、さらなる分析と実験のためにこのデータの利用を緩和する。
我々は、ORBが成熟するにつれて更新し、高エネルギー物理学などの専門分野にさらに適合した新たな資源を導入する計画である。
関連論文リスト
- All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - The SourceData-NLP dataset: integrating curation into scientific
publishing for training large language models [1.0423199374671421]
本稿では,出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。
このデータセットは、分子生物学と細胞生物学の3,223の論文で18,689個の数字から算出された、620,000以上の注釈付き生物医学的な実体を含んでいる。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Large Language Models for Automated Open-domain Scientific Hypotheses
Discovery [53.40975887946237]
本研究は,社会科学の学術的仮説発見のための最初のNLPデータセットを提案する。
最近のトップ50の社会科学出版物と生のウェブコーパスで構成されている。
最後の目標は、有効で斬新で有用な科学的仮説を自動的に生成するシステムを作ることだ。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Citation Trajectory Prediction via Publication Influence Representation
Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。
本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。
APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文 参考訳(メタデータ) (2022-10-02T07:43:26Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Automatic generation of reviews of scientific papers [1.1999555634662633]
本稿では,ユーザ定義クエリに対応するレビューペーパーの自動生成手法を提案する。
第1部では、共引用グラフなどの文献パラメータによって、この領域における重要な論文を識別する。
第2段階では、BERTベースのアーキテクチャを使用して、これらの重要な論文の抽出要約のために既存のレビューをトレーニングします。
論文 参考訳(メタデータ) (2020-10-08T17:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。