論文の概要: Chunk Twice, Embed Once: A Systematic Study of Segmentation and Representation Trade-offs in Chemistry-Aware Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2506.17277v1
- Date: Fri, 13 Jun 2025 07:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.850242
- Title: Chunk Twice, Embed Once: A Systematic Study of Segmentation and Representation Trade-offs in Chemistry-Aware Retrieval-Augmented Generation
- Title(参考訳): Chunk Twice, Once Embed:A Systematic Study of Segmentation and Representation Trade-offs in Chemistry-Aware Retrieval-Augmented Generation
- Authors: Mahmoud Amiri, Thomas Bocklitz,
- Abstract要約: Retrieval-Augmented Generationシステムは、科学文献の絶え間なく拡大する身体をナビゲートするためにますます重要になっている。
本研究は,化学に特化したRAGシステムに適したチャンキング戦略と埋め込みモデルの大規模かつ体系的な評価を行った最初の事例である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems are increasingly vital for navigating the ever-expanding body of scientific literature, particularly in high-stakes domains such as chemistry. Despite the promise of RAG, foundational design choices -- such as how documents are segmented and represented -- remain underexplored in domain-specific contexts. This study presents the first large-scale, systematic evaluation of chunking strategies and embedding models tailored to chemistry-focused RAG systems. We investigate 25 chunking configurations across five method families and evaluate 48 embedding models on three chemistry-specific benchmarks, including the newly introduced QuestChemRetrieval dataset. Our results reveal that recursive token-based chunking (specifically R100-0) consistently outperforms other approaches, offering strong performance with minimal resource overhead. We also find that retrieval-optimized embeddings -- such as Nomic and Intfloat E5 variants -- substantially outperform domain-specialized models like SciBERT. By releasing our datasets, evaluation framework, and empirical benchmarks, we provide actionable guidelines for building effective and efficient chemistry-aware RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、特に化学のような高度な領域において、絶え間なく拡大する科学文献をナビゲートするためにますます重要になっている。
RAGの約束にもかかわらず、ドキュメントのセグメント化や表現方法といった基本的な設計上の選択は、ドメイン固有のコンテキストにおいて過小評価されている。
本研究は,化学に特化したRAGシステムに適したチャンキング戦略と埋め込みモデルの大規模かつ体系的な評価を行った最初の事例である。
新たに導入されたQuestChemRetrievalデータセットを含む,化学固有の3つのベンチマークに対して,5つのメソッドファミリーにまたがる25のチャンキング構成を調査し,48の埋め込みモデルを評価する。
以上の結果から,再帰的トークンベースのチャンキング(特にR100-0)は,リソースオーバーヘッドを最小限に抑えることで,他のアプローチよりも優れたパフォーマンスを実現していることが明らかとなった。
また、NomicやIntfloat E5のような検索最適化の埋め込みは、SciBERTのようなドメイン特化モデルよりも大幅に優れています。
データセット、評価フレームワーク、経験的ベンチマークをリリースすることにより、効果的で効率的な化学対応RAGシステムを構築するための実行可能なガイドラインを提供します。
関連論文リスト
- Benchmarking Retrieval-Augmented Generation for Chemistry [28.592844362931853]
Retrieval-augmented Generationは、外部知識で大規模言語モデルを拡張するためのフレームワークである。
ChemRAG-Benchは、様々な化学関連タスクにおけるRAGの有効性を評価するために設計されたベンチマークである。
ChemRAG-Toolkitは,5つの検索アルゴリズムと8つのLLMをサポートするモジュールツールキットである。
論文 参考訳(メタデータ) (2025-05-12T15:34:45Z) - Replication and Exploration of Generative Retrieval over Dynamic Corpora [87.09185685594105]
情報検索(IR)における有望なパラダイムとして生成検索(GR)が登場している。
既存のGRモデルと数値テキストに基づくドシデントは、未確認文書に対して優れた一般化を示す。
本稿では,数値ベースドクトの効率とテキストベースドクトの有効性を両立させる新しいマルチドクト設計を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:01:23Z) - XRAG: eXamining the Core -- Benchmarking Foundational Components in Advanced Retrieval-Augmented Generation [36.84847781022757]
Retrieval-augmented Generation (RAG) は、Large Language Models (LLMs) の生成能力と関連するデータの検索を相乗化する
我々は,高度なRAGモジュールの基本コンポーネントの性能を徹底的に評価する,オープンソースのモジュールであるXRAGを紹介する。
論文 参考訳(メタデータ) (2024-12-20T03:37:07Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - ChemTEB: Chemical Text Embedding Benchmark, an Overview of Embedding Models Performance & Efficiency on a Specific Domain [0.8974531206817746]
本稿では,ケミカルテキスト埋め込みベンチマーク(ChemTEB)という新しいベンチマークを紹介する。
ChemTEBは、化学文献とデータのユニークな言語的・意味的な複雑さに対処する。
化学情報の処理と理解における現在の方法論の長所と短所を照らす。
論文 参考訳(メタデータ) (2024-11-30T16:45:31Z) - WelQrate: Defining the Gold Standard in Small Molecule Drug Discovery Benchmarking [13.880278087741482]
深層学習はコンピュータ支援による薬物発見に革命をもたらした。
ディープラーニングはコンピュータ支援薬の発見に革命をもたらしたが、AIコミュニティは主にモデルイノベーションに重点を置いてきた。
我々は、小型分子の薬物発見ベンチマークであるWelQrateの新しいゴールドスタンダードの確立を目指しています。
論文 参考訳(メタデータ) (2024-11-14T21:49:41Z) - Aggregated Knowledge Model: Enhancing Domain-Specific QA with Fine-Tuned and Retrieval-Augmented Generation Models [0.0]
本稿では,クローズドドメイン質問応答システム(QA)の新たなアプローチを提案する。
ローレンス・バークレー国立研究所(LBL)科学情報技術(ScienceIT)ドメインの特定のニーズに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-24T00:49:46Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。