論文の概要: ChEmbed: Enhancing Chemical Literature Search Through Domain-Specific Text Embeddings
- arxiv url: http://arxiv.org/abs/2508.01643v1
- Date: Sun, 03 Aug 2025 08:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.985623
- Title: ChEmbed: Enhancing Chemical Literature Search Through Domain-Specific Text Embeddings
- Title(参考訳): ChEmbed: ドメイン特化テキスト埋め込みによる化学文献検索の強化
- Authors: Ali Shiraee Kasmaee, Mohammad Khodadad, Mehdi Astaraki, Mohammad Arshi Saloot, Nicholas Sherck, Hamidreza Mahyar, Soheila Samiee,
- Abstract要約: 汎用テキスト埋め込みモデルは複雑な化学用語を適切に表現できない。
ChEmbedは、化学固有のテキストからなるデータセットに微調整されたテキスト埋め込みモデルのドメイン適応型ファミリーである。
我々は大規模言語モデルを用いてクエリを合成し、その結果、約170万の高品質なクエリパスペアが生成される。
- 参考スコア(独自算出の注目度): 0.8974531206817746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems in chemistry heavily depend on accurate and relevant retrieval of chemical literature. However, general-purpose text embedding models frequently fail to adequately represent complex chemical terminologies, resulting in suboptimal retrieval quality. Specialized embedding models tailored to chemical literature retrieval have not yet been developed, leaving a substantial performance gap. To address this challenge, we introduce ChEmbed, a domain-adapted family of text embedding models fine-tuned on a dataset comprising chemistry-specific text from the PubChem, Semantic Scholar, and ChemRxiv corpora. To create effective training data, we employ large language models to synthetically generate queries, resulting in approximately 1.7 million high-quality query-passage pairs. Additionally, we augment the tokenizer by adding 900 chemically specialized tokens to previously unused slots, which significantly reduces the fragmentation of chemical entities, such as IUPAC names. ChEmbed also maintains a 8192-token context length, enabling the efficient retrieval of longer passages compared to many other open-source embedding models, which typically have a context length of 512 or 2048 tokens. Evaluated on our newly introduced ChemRxiv Retrieval benchmark, ChEmbed outperforms state-of-the-art general embedding models, raising nDCG@10 from 0.82 to 0.91 (+9 pp). ChEmbed represents a practical, lightweight, and reproducible embedding solution that effectively improves retrieval for chemical literature search.
- Abstract(参考訳): 化学における検索・拡張生成(RAG)システムは、化学文献の正確かつ関連する検索に大きく依存している。
しかし、汎用テキスト埋め込みモデルは、しばしば複雑な化学用語を適切に表現することができず、その結果、最適以下の検索品質が得られる。
化学文献検索に適した特殊な埋め込みモデルはまだ開発されておらず、かなりの性能差を残している。
この課題に対処するために、私たちはPubChem、Semantic Scholar、ChemRxiv corporaの化学固有のテキストからなるデータセット上に微調整されたドメイン適応テキスト埋め込みモデルのChEmbedを紹介した。
効率的なトレーニングデータを作成するために、我々は大規模な言語モデルを用いてクエリを合成し、その結果、約170万の高品質なクエリパスペアが生成される。
さらに, 未使用スロットに900個の化学的特化トークンを付加することにより, IUPAC名前などの化学物質の断片化を著しく低減し, トークン化を促進させる。
ChEmbedは8192トークンのコンテキスト長も維持しており、コンテクスト長が512または2048トークンである他の多くのオープンソース埋め込みモデルと比較して、より長いパスの効率的な検索を可能にする。
新たに導入したChemRxiv Retrievalベンチマークで評価したところ、ChEmbedは最先端の一般埋め込みモデルより優れており、nDCG@10が0.82から0.91(+9 pp)まで上昇している。
ChEmbedは、化学文献検索の検索を効果的に改善する実用的で軽量で再現可能な埋め込みソリューションである。
関連論文リスト
- ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - ChemTEB: Chemical Text Embedding Benchmark, an Overview of Embedding Models Performance & Efficiency on a Specific Domain [0.8974531206817746]
本稿では,ケミカルテキスト埋め込みベンチマーク(ChemTEB)という新しいベンチマークを紹介する。
ChemTEBは、化学文献とデータのユニークな言語的・意味的な複雑さに対処する。
化学情報の処理と理解における現在の方法論の長所と短所を照らす。
論文 参考訳(メタデータ) (2024-11-30T16:45:31Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - EnzChemRED, a rich enzyme chemistry relation extraction dataset [3.6124226106001]
EnzChemREDは1,210名の専門家によるPubMed抽象体から構成され、そこでは酵素と触媒する化学反応がアノテートされる。
EnzChemREDを用いた微調整済み言語モデルは、テキスト中のタンパク質や化学物質の言及を識別する能力を著しく向上させることができることを示す。
本稿では,EnzChemREDを微調整して,テキストから知識を抽出するエンド・ツー・エンド・エンドのパイプラインを作成する。
論文 参考訳(メタデータ) (2024-04-22T14:18:34Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Predictive Chemistry Augmented with Text Retrieval [37.59545092901872]
文献から得られたテキストで予測化学を直接拡張する新しい方法であるTextReactを紹介する。
TextReactは、所定の化学反応に関連するテキスト記述を検索し、それらを反応の分子的表現と整合させる。
反応条件の推薦と1段階の逆合成という2つの化学課題の枠組みを実証的に検証した。
論文 参考訳(メタデータ) (2023-12-08T07:40:59Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。