論文の概要: MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows
- arxiv url: http://arxiv.org/abs/2406.06357v1
- Date: Mon, 10 Jun 2024 15:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:28:42.059443
- Title: MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows
- Title(参考訳): MASSW:AI支援科学ワークフローのための新しいデータセットとベンチマークタスク
- Authors: Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan, Qijia Liu, Ziyang Xiong, Tolga Ergen, Dongsub Shim, Honglak Lee, Qiaozhu Mei,
- Abstract要約: 我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
- 参考スコア(独自算出の注目度): 58.56005277371235
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Scientific innovation relies on detailed workflows, which include critical steps such as analyzing literature, generating ideas, validating these ideas, interpreting results, and inspiring follow-up research. However, scientific publications that document these workflows are extensive and unstructured. This makes it difficult for both human researchers and AI systems to effectively navigate and explore the space of scientific innovation. To address this issue, we introduce MASSW, a comprehensive text dataset on Multi-Aspect Summarization of Scientific Workflows. MASSW includes more than 152,000 peer-reviewed publications from 17 leading computer science conferences spanning the past 50 years. Using Large Language Models (LLMs), we automatically extract five core aspects from these publications -- context, key idea, method, outcome, and projected impact -- which correspond to five key steps in the research workflow. These structured summaries facilitate a variety of downstream tasks and analyses. The quality of the LLM-extracted summaries is validated by comparing them with human annotations. We demonstrate the utility of MASSW through multiple novel machine-learning tasks that can be benchmarked using this new dataset, which make various types of predictions and recommendations along the scientific workflow. MASSW holds significant potential for researchers to create and benchmark new AI methods for optimizing scientific workflows and fostering scientific innovation in the field. Our dataset is openly available at \url{https://github.com/xingjian-zhang/massw}.
- Abstract(参考訳): 科学的革新は詳細なワークフローに依存しており、文学の分析、アイデアの生成、これらのアイデアの検証、結果の解釈、フォローアップ研究のインスピレーションといった重要なステップがある。
しかし、これらのワークフローを文書化する科学出版物は広く、構造化されていない。
これにより、人間の研究者とAIシステムが科学的イノベーションの空間を効果的にナビゲートし探索することが困難になる。
この問題に対処するために、科学ワークフローのマルチアスペクト要約に関する包括的なテキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
LLM(Large Language Models)を使用することで、研究ワークフローにおける5つの重要なステップに対応する、コンテキスト、キーアイデア、メソッド、結果、投影された影響という、これらのパブリッシュから5つの中核的な側面を自動的に抽出します。
これらの構造的な要約は、様々な下流のタスクや分析を促進する。
LLM抽出した要約の質を人間のアノテーションと比較することで検証する。
我々は,この新たなデータセットを用いてベンチマーク可能な,複数の新しい機械学習タスクを通じてMASSWの有用性を実証する。
MASSWは、研究者が科学ワークフローを最適化し、この分野における科学革新を促進するための新しいAIメソッドを作成し、ベンチマークする大きな可能性を秘めている。
我々のデータセットは、 \url{https://github.com/xingjian-zhang/massw}で公開されています。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - Human-artificial intelligence teaming for scientific information extraction from data-driven additive manufacturing research using large language models [3.0061386772253784]
近年,データ駆動型アダプティブ・マニュファクチャリング(AM)の研究は大きな成功を収めている。
この結果、多くの科学文献が誕生した。
これらの作品から科学的情報を取り出すにはかなりの労力と時間を要する。
本稿では,AMとAIの専門家が共同で,データ駆動型AM文献から科学情報を継続的に抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-26T15:43:52Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - SciOps: Achieving Productivity and Reliability in Data-Intensive Research [0.8414742293641504]
科学者たちは、実験や研究の目標を拡大するために、機器、自動化、協調ツールの進歩をますます活用している。
神経科学を含む様々な科学分野は、コラボレーション、インスピレーション、自動化を強化するための重要な技術を採用してきた。
厳密な科学的操作の原理を説明する5段階の能力成熟度モデルを導入する。
論文 参考訳(メタデータ) (2023-12-29T21:37:22Z) - Method and Dataset Entity Mining in Scientific Literature: A CNN +
Bi-LSTM Model with Self-attention [21.93889297841459]
MDERと呼ばれる新しいエンティティ認識モデルを提案し、科学的論文から効果的にメソッドとデータセットを抽出することができる。
我々は,NLP,CV,データマイニング,AIの4つの研究分野の論文から構築したデータセットのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-26T13:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。