論文の概要: ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints
- arxiv url: http://arxiv.org/abs/2505.05232v1
- Date: Thu, 08 May 2025 13:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.897445
- Title: ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints
- Title(参考訳): ChemRxivQuest: ChemRxiv プレプリントから抽出したキュレートされた化学質問回答データベース
- Authors: Mahmoud Amiri, Thomas Bocklitz,
- Abstract要約: ChemRxivQuestは、17のサブフィールドにわたる155のChemRxivプリプリントから、高品質なQA(QA)ペア970のキュレートされたデータセットである。
各QAペアは、トレーサビリティとコンテキスト精度を確保するために、ソーステキストセグメントに明示的にリンクされている。
ChemRxivQuestは光学文字認識(OCR)、GPT-4oベースのQA生成とファジィマッチング技術を組み合わせた自動パイプラインを用いて構築された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid expansion of chemistry literature poses significant challenges for researchers seeking to efficiently access domain-specific knowledge. To support advancements in chemistry-focused natural language processing (NLP), we present ChemRxivQuest, a curated dataset of 970 high-quality question-answer (QA) pairs derived from 155 ChemRxiv preprints across 17 subfields of chemistry. Each QA pair is explicitly linked to its source text segment to ensure traceability and contextual accuracy. ChemRxivQuest was constructed using an automated pipeline that combines optical character recognition (OCR), GPT-4o-based QA generation, and a fuzzy matching technique for answer verification. The dataset emphasizes conceptual, mechanistic, applied, and experimental questions, enabling applications in retrieval-based QA systems, search engine development, and fine-tuning of domain-adapted large language models. We analyze the dataset's structure, coverage, and limitations, and outline future directions for expansion and expert validation. ChemRxivQuest provides a foundational resource for chemistry NLP research, education, and tool development.
- Abstract(参考訳): 化学文献の急速な拡大は、ドメイン固有の知識を効率的にアクセスしようとする研究者にとって大きな課題となっている。
化学に着目した自然言語処理(NLP)の進歩を支援するために,化学の17のサブフィールドにまたがる155のChemRxivプリプリントから得られた970の高品質質問応答(QA)ペアのキュレートデータセットであるChemRxivQuestを提案する。
各QAペアは、トレーサビリティとコンテキスト精度を確保するために、ソーステキストセグメントに明示的にリンクされている。
ChemRxivQuestは光学文字認識(OCR)、GPT-4oベースのQA生成とファジィマッチング技術を組み合わせた自動パイプラインを用いて構築された。
このデータセットは、概念的、機械的、応用的、実験的な質問を強調し、検索ベースのQAシステム、検索エンジンの開発、ドメイン適応型大規模言語モデルの微調整などに適用することができる。
データセットの構造、カバレッジ、制限を分析し、拡張と専門家による検証のための今後の方向性を概説する。
ChemRxivQuestは化学NLPの研究、教育、ツール開発のための基礎的なリソースを提供する。
関連論文リスト
- Large Language Models for Education: ChemTAsk -- An Open-Source Paradigm for Automated Q&A in the Graduate Classroom [1.5705429611931057]
大規模言語モデル(LLM)は、大学院レベルの教育を支援することを約束するが、トレーニングデータと潜在的なコミュニケーションによって制限される。
我々は,LLMと検索拡張生成(RAG)を組み合わせたオープンソースのパイプラインであるChemTAskを開発した。
論文 参考訳(メタデータ) (2025-01-10T02:19:47Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。
このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。
質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文 参考訳(メタデータ) (2024-05-03T14:29:54Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [55.30328162764292]
Chemist-Xは、化学合成における反応条件最適化(RCO)タスクを自動化する包括的なAIエージェントである。
このエージェントは、検索強化世代(RAG)技術とAI制御のウェットラブ実験を実行する。
我々の自動ウェットラブ実験の結果は、LLMが制御するエンドツーエンドの操作を、ロボットに人間がいない状態で行うことで達成され、Chemist-Xの自動運転実験における能力が証明された。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。