論文の概要: SCP-116K: A High-Quality Problem-Solution Dataset and a Generalized Pipeline for Automated Extraction in the Higher Education Science Domain
- arxiv url: http://arxiv.org/abs/2501.15587v1
- Date: Sun, 26 Jan 2025 16:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:54.492259
- Title: SCP-116K: A High-Quality Problem-Solution Dataset and a Generalized Pipeline for Automated Extraction in the Higher Education Science Domain
- Title(参考訳): SCP-116K:高等学校理科領域における高品質問題解決データセットと総合的抽出パイプライン
- Authors: Dakuan Lu, Xiaoyu Tan, Rui Xu, Tianchu Yao, Chao Qu, Wei Chu, Yinghui Xu, Yuan Qi,
- Abstract要約: SCP-116Kは、116,756の高品質な問題解決ペアからなる大規模データセットである。
我々のアプローチは、抽出された材料の科学的な厳密さと教育レベルを確保するための厳密なフィルタリングである。
SCP-116Kは、高レベルの科学的推論タスクの進展を触媒する重要な資源となると信じている。
- 参考スコア(独自算出の注目度): 33.35798186793638
- License:
- Abstract: Recent breakthroughs in large language models (LLMs) exemplified by the impressive mathematical and scientific reasoning capabilities of the o1 model have spotlighted the critical importance of high-quality training data in advancing LLM performance across STEM disciplines. While the mathematics community has benefited from a growing body of curated datasets, the scientific domain at the higher education level has long suffered from a scarcity of comparable resources. To address this gap, we present SCP-116K, a new large-scale dataset of 116,756 high-quality problem-solution pairs, automatically extracted from heterogeneous sources using a streamlined and highly generalizable pipeline. Our approach involves stringent filtering to ensure the scientific rigor and educational level of the extracted materials, while maintaining adaptability for future expansions or domain transfers. By openly releasing both the dataset and the extraction pipeline, we seek to foster research on scientific reasoning, enable comprehensive performance evaluations of new LLMs, and lower the barrier to replicating the successes of advanced models like o1 in the broader science community. We believe SCP-116K will serve as a critical resource, catalyzing progress in high-level scientific reasoning tasks and promoting further innovations in LLM development. The dataset and code are publicly available at https://github.com/AQA6666/SCP-116K-open.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近のブレークスルーは、o1モデルの数学的および科学的推論能力に代表されるものであり、STEM分野にわたるLLMのパフォーマンス向上において、高品質なトレーニングデータの重要性を浮き彫りにしている。
数学コミュニティは、キュレートされたデータセットの増大によって恩恵を受けてきたが、高等教育レベルの科学領域は、長い間、同等のリソースの不足に悩まされてきた。
このギャップに対処するため、SCP-116Kは、116,756個の高品質な問題解決ペアからなる新しい大規模データセットであり、合理化および高一般化可能なパイプラインを用いて異種ソースから自動的に抽出される。
提案手法は, 将来的な拡張やドメイン転送への適応性を維持しつつ, 抽出した材料の科学的厳密さと教育レベルを確保するために, 厳密なフィルタリングを含む。
データセットと抽出パイプラインの両方をオープンにリリースすることで、科学推論の研究を奨励し、新しいLSMの包括的なパフォーマンス評価を可能にし、より広い科学コミュニティにおけるo1のような先進モデルの成功を複製する障壁を低くすることを目指している。
我々は、SCP-116Kが重要な資源として機能し、高度な科学的推論タスクの進展を触媒し、LLM開発におけるさらなる革新を促進すると信じている。
データセットとコードはhttps://github.com/AQA6666/SCP-116K-openで公開されている。
関連論文リスト
- Foundational Large Language Models for Materials Research [22.77591279242839]
大規模言語モデル(LLM)は、自動分析と予測を通じて材料研究を加速する機会を提供する。
本稿では,LLaMAモデルの継続事前学習を通じて発達した材料科学の基礎モデルであるLLaMatについて述べる。
LLaMatは、一般的な言語能力を維持しつつ、材料固有のNLPと構造化情報抽出に優れることを示した。
論文 参考訳(メタデータ) (2024-12-12T18:46:38Z) - WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.782357627001154]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (2024-12-04T23:36:23Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Data-Efficient Learning via Minimizing Hyperspherical Energy [48.47217827782576]
本稿では,少数の代表データを用いたスクラッチからのデータ効率学習の問題について考察する。
我々は,MHEに基づくアクティブラーニング(MHEAL)アルゴリズムを提案し,MHEALの包括的な理論的保証を提供する。
論文 参考訳(メタデータ) (2022-06-30T11:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。