論文の概要: ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints
- arxiv url: http://arxiv.org/abs/2505.05232v2
- Date: Fri, 13 Jun 2025 07:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:01.672938
- Title: ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints
- Title(参考訳): ChemRxivQuest: ChemRxiv プレプリントから抽出したキュレートされた化学質問回答データベース
- Authors: Mahmoud Amiri, Thomas Bocklitz,
- Abstract要約: ChemRxivQuestは、17のサブフィールドにわたる155のChemRxivプリプリントから、高品質なQA(QA)ペア970のキュレートされたデータセットである。
各QAペアは、トレーサビリティとコンテキスト精度を確保するために、ソーステキストセグメントに明示的にリンクされている。
ChemRxivQuestは光学文字認識(OCR)、GPT-4oベースのQA生成とファジィマッチング技術を組み合わせた自動パイプラインを用いて構築された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid expansion of chemistry literature poses significant challenges for researchers seeking to efficiently access domain-specific knowledge. To support advancements in chemistry-focused natural language processing (NLP), we present ChemRxivQuest, a curated dataset of 970 high-quality question-answer (QA) pairs derived from 155 ChemRxiv preprints across 17 subfields of chemistry. Each QA pair is explicitly linked to its source text segment to ensure traceability and contextual accuracy. ChemRxivQuest was constructed using an automated pipeline that combines optical character recognition (OCR), GPT-4o-based QA generation, and a fuzzy matching technique for answer verification. The dataset emphasizes conceptual, mechanistic, applied, and experimental questions, enabling applications in retrieval-based QA systems, search engine development, and fine-tuning of domain-adapted large language models. We analyze the dataset's structure, coverage, and limitations, and outline future directions for expansion and expert validation. ChemRxivQuest provides a foundational resource for chemistry NLP research, education, and tool development.
- Abstract(参考訳): 化学文献の急速な拡大は、ドメイン固有の知識を効率的にアクセスしようとする研究者にとって大きな課題となっている。
化学に着目した自然言語処理(NLP)の進歩を支援するために,化学の17のサブフィールドにまたがる155のChemRxivプリプリントから得られた970の高品質質問応答(QA)ペアのキュレートデータセットであるChemRxivQuestを提案する。
各QAペアは、トレーサビリティとコンテキスト精度を確保するために、ソーステキストセグメントに明示的にリンクされている。
ChemRxivQuestは光学文字認識(OCR)、GPT-4oベースのQA生成とファジィマッチング技術を組み合わせた自動パイプラインを用いて構築された。
このデータセットは、概念的、機械的、応用的、実験的な質問を強調し、検索ベースのQAシステム、検索エンジンの開発、ドメイン適応型大規模言語モデルの微調整などに適用することができる。
データセットの構造、カバレッジ、制限を分析し、拡張と専門家による検証のための今後の方向性を概説する。
ChemRxivQuestは化学NLPの研究、教育、ツール開発のための基礎的なリソースを提供する。
関連論文リスト
- QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [12.18966912295507]
QCBenchは、7つの化学サブフィールドにわたる350の計算化学問題からなるベンチマークである。
それぞれの問題は、現実世界の化学垂直場に根ざした純粋計算に焦点を当てている。
19のLLMの評価は、タスクの複雑さを増大させるとともに、一貫したパフォーマンス劣化を示す。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Benchmarking Retrieval-Augmented Generation for Chemistry [28.592844362931853]
Retrieval-augmented Generationは、外部知識で大規模言語モデルを拡張するためのフレームワークである。
ChemRAG-Benchは、様々な化学関連タスクにおけるRAGの有効性を評価するために設計されたベンチマークである。
ChemRAG-Toolkitは,5つの検索アルゴリズムと8つのLLMをサポートするモジュールツールキットである。
論文 参考訳(メタデータ) (2025-05-12T15:34:45Z) - ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - Large Language Models for Education: ChemTAsk -- An Open-Source Paradigm for Automated Q&A in the Graduate Classroom [1.5705429611931057]
大規模言語モデル(LLM)は、大学院レベルの教育を支援することを約束するが、トレーニングデータと潜在的なコミュニケーションによって制限される。
我々は,LLMと検索拡張生成(RAG)を組み合わせたオープンソースのパイプラインであるChemTAskを開発した。
論文 参考訳(メタデータ) (2025-01-10T02:19:47Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。
このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。
質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文 参考訳(メタデータ) (2024-05-03T14:29:54Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [55.30328162764292]
Chemist-Xは、化学合成における反応条件最適化(RCO)タスクを自動化する包括的なAIエージェントである。
このエージェントは、検索強化世代(RAG)技術とAI制御のウェットラブ実験を実行する。
我々の自動ウェットラブ実験の結果は、LLMが制御するエンドツーエンドの操作を、ロボットに人間がいない状態で行うことで達成され、Chemist-Xの自動運転実験における能力が証明された。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。