Fugu-MT 論文翻訳(概要): The Open Review-Based (ORB) dataset: Towards Automatic Assessment of Scientific Papers and Experiment Proposals in High-Energy Physics

論文の概要: The Open Review-Based (ORB) dataset: Towards Automatic Assessment of Scientific Papers and Experiment Proposals in High-Energy Physics

arxiv url: http://arxiv.org/abs/2312.04576v1
Date: Wed, 29 Nov 2023 20:52:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 14:57:24.329151
Title: The Open Review-Based (ORB) dataset: Towards Automatic Assessment of Scientific Papers and Experiment Proposals in High-Energy Physics
Title（参考訳）: open review-based (orb) dataset : 科学論文の自動評価と高エネルギー物理学実験の提案に向けて
Authors: Jaroslaw Szumega, Lamine Bougueroua, Blerina Gkotse, Pierre Jouvelot, Federico Ravotti
Abstract要約: 新しい包括的オープンレビューベースデータセット(ORB)を紹介する。これには36,000以上の科学論文のキュレートされたリストが含まれ、89,000以上のレビューと最終決定が含まれている。本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the Open Science approach becoming important for research, the evolution towards open scientific-paper reviews is making an impact on the scientific community. However, there is a lack of publicly available resources for conducting research activities related to this subject, as only a limited number of journals and conferences currently allow access to their review process for interested parties. In this paper, we introduce the new comprehensive Open Review-Based dataset (ORB); it includes a curated list of more than 36,000 scientific papers with their more than 89,000 reviews and final decisions. We gather this information from two sources: the OpenReview.net and SciPost.org websites. However, given the volatile nature of this domain, the software infrastructure that we introduce to supplement the ORB dataset is designed to accommodate additional resources in the future. The ORB deliverables include (1) Python code (interfaces and implementations) to translate document data and metadata into a structured and high-level representation, (2) an ETL process (Extract, Transform, Load) to facilitate the automatic updates from defined sources and (3) data files representing the structured data. The paper presents our data architecture and an overview of the collected data along with relevant statistics. For illustration purposes, we also discuss preliminary Natural-Language-Processing-based experiments that aim to predict (1) papers' acceptance based on their textual embeddings, and (2) grading statistics inferred from embeddings as well. We believe ORB provides a valuable resource for researchers interested in open science and review, with our implementation easing the use of this data for further analysis and experimentation. We plan to update ORB as the field matures as well as introduce new resources even more fitted to dedicated scientific domains such as High-Energy Physics.
Abstract（参考訳）: オープンサイエンスのアプローチが研究にとって重要になるにつれ、オープンな科学論文レビューへの進化が科学コミュニティに影響を与えている。しかし、このテーマに関連する研究活動を行うための公的なリソースが不足しており、現在関心のある関係者のレビュープロセスへのアクセスを許可しているジャーナルやカンファレンスは限られている。本稿では,新たな包括的オープンレビューベースデータセット(ORB)を紹介し,89,000以上のレビューと最終決定を伴う36,000以上の科学論文のキュレートリストを含む。この情報はOpenReview.netとSciPost.orgの2つのサイトから収集しています。しかし、このドメインの揮発性の性質を考えると、ORBデータセットを補完するソフトウェアインフラは、将来追加リソースに対応するように設計されている。 ORBの成果物には、(1)文書データとメタデータを構造化された高レベルな表現に変換するPythonコード(インタフェースと実装)、(2)ETLプロセス(Extract, Transform, Load)、(3)構造化されたデータを表すデータファイルからの自動更新を容易にする。本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。また,本研究では,(1)論文のテキスト組込みに基づく受容予測,(2)組込みから推定された統計値の格付けを目的とした自然言語処理に基づく予備実験についても述べる。 ORBはオープンサイエンスとレビューに関心のある研究者に貴重なリソースを提供し、さらなる分析と実験のためにこのデータの利用を緩和する。我々は、ORBが成熟するにつれて更新し、高エネルギー物理学などの専門分野にさらに適合した新たな資源を導入する計画である。

関連論文リスト

Measuring the State of Open Science in Transportation Using Large Language Models [8.915048816245394]
オープンサイエンスのイニシアチブは、科学の完全性を強化し、多くの分野における研究の進歩を加速してきた。オープンサイエンスの主要な特徴は、ここではデータとコードの可用性として定義されており、フィールド固有の複雑さのために抽出するのが困難である。本稿では,交通研究におけるデータとコード可用性を計測する,自動かつスケーラブルな特徴抽出パイプラインを提案する。
論文参考訳（メタデータ） (2026-01-20T19:39:52Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文参考訳（メタデータ） (2024-06-10T15:19:09Z)
Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文参考訳（メタデータ） (2024-05-07T09:05:20Z)
Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文参考訳（メタデータ） (2024-04-04T10:09:28Z)
On the Readiness of Scientific Data for a Fair and Transparent Use in Machine Learning [1.8270184406083445]
異なる領域の4041データ文書のサンプルについて検討し、その完全性、要求された寸法のカバレッジ、近年の動向について検討する。我々は,データ作成者や科学データ発行者に対して,機械学習技術における透明性と公正な使用に対するデータの準備性を高めるための一連の勧告ガイドラインを提案する。
論文参考訳（メタデータ） (2024-01-18T12:11:27Z)
All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文参考訳（メタデータ） (2023-11-14T14:22:47Z)
The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (2023-01-24T17:13:08Z)
Citation Trajectory Prediction via Publication Influence Representation Using Temporal Knowledge Graph [52.07771598974385]
既存のアプローチは主に学術論文の時間的データとグラフデータのマイニングに依存している。本フレームワークは,差分保存グラフ埋め込み,きめ細かい影響表現,学習に基づく軌道計算という3つのモジュールから構成される。 APSアカデミックデータセットとAIPatentデータセットの両方で実験を行った。
論文参考訳（メタデータ） (2022-10-02T07:43:26Z)
What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文参考訳（メタデータ） (2020-11-06T02:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。