論文の概要: eSapiens's DEREK Module: Deep Extraction & Reasoning Engine for Knowledge with LLMs
- arxiv url: http://arxiv.org/abs/2507.15863v1
- Date: Sun, 13 Jul 2025 05:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.763381
- Title: eSapiens's DEREK Module: Deep Extraction & Reasoning Engine for Knowledge with LLMs
- Title(参考訳): eSapiensのDEREKモジュール:LLMの知識のための深層抽出と推論エンジン
- Authors: Isaac Shi, Zeyuan Li, Fan Liu, Wenli Wang, Lewei He, Yang Yang, Tianyu Shi,
- Abstract要約: DEREKモジュールは異種コンテンツ(PDF、Office、Web)を取り込み、1000の重複チャンクに分割し、ハイブリッドHNSW+BM25ストアにインデックスする。
LangGraph検証器は引用重複を強制し、すべてのクレームが根拠となるまで回答を再生する。
すべてのコンポーネントはコンテナで動作し、エンドツーエンドのTLS 1.3とAES-256を強制する。
- 参考スコア(独自算出の注目度): 10.667949307405983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the DEREK (Deep Extraction & Reasoning Engine for Knowledge) Module, a secure and scalable Retrieval-Augmented Generation pipeline designed specifically for enterprise document question answering. Designed and implemented by eSapiens, the system ingests heterogeneous content (PDF, Office, web), splits it into 1,000-token overlapping chunks, and indexes them in a hybrid HNSW+BM25 store. User queries are refined by GPT-4o, retrieved via combined vector+BM25 search, reranked with Cohere, and answered by an LLM using CO-STAR prompt engineering. A LangGraph verifier enforces citation overlap, regenerating answers until every claim is grounded. On four LegalBench subsets, 1000-token chunks improve Recall@50 by approximately 1 pp and hybrid+rerank boosts Precision@10 by approximately 7 pp; the verifier raises TRACe Utilization above 0.50 and limits unsupported statements to less than 3%. All components run in containers, enforce end-to-end TLS 1.3 and AES-256. These results demonstrate that the DEREK module delivers accurate, traceable, and production-ready document QA with minimal operational overhead. The module is designed to meet enterprise demands for secure, auditable, and context-faithful retrieval, providing a reliable baseline for high-stakes domains such as legal and finance.
- Abstract(参考訳): DeREK(Deep extract & Reasoning Engine for Knowledge)モジュールは,企業文書の質問応答に特化して設計された,セキュアでスケーラブルなRetrieval-Augmented Generationパイプラインである。
eSapiensによって設計および実装され、システムは異種コンテンツ(PDF、Office、Web)を取り込み、それを1000の重複チャンクに分割し、ハイブリッドHNSW+BM25ストアにインデックスする。
ユーザクエリは GPT-4o によって洗練され、ベクトル+BM25 検索を併用して検索され、Cohere でリランクされ、CO-STAR プロンプトエンジニアリングを使用して LLM で応答される。
LangGraph検証器は引用重複を強制し、すべてのクレームが根拠となるまで回答を再生する。
4つのLegalBenchサブセットでは、1000のチャンクがRecall@50を約1pp改善し、Precision@10を約7pp向上させた。
すべてのコンポーネントはコンテナで動作し、エンドツーエンドのTLS 1.3とAES-256を強制する。
これらの結果は、DEREKモジュールが、最小の運用オーバーヘッドで正確で、トレース可能で、プロダクション対応のドキュメントQAを提供することを示している。
このモジュールは、安全で監査可能で、文脈に忠実な検索に対する企業の要求を満たすように設計されており、法律や財務などの高額なドメインに対する信頼性の高いベースラインを提供する。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Towards Practical Defect-Focused Automated Code Review [8.370750734081088]
オンラインレコメンデーションサービスの中で、業界レベルのC++を分析しながら、完全な自動化パイプラインを調査します。
1)関連コンテキストの取得,2)キーインクルージョンの改善,3)偽アラーム率(FAR)の低減,4)人間のバグスライシングの統合。
提案手法は, 既往の断層記録からの実世界のマージ要求に基づいて検証され, 従来のLLMよりも2倍, 以前のベースラインより10倍向上した。
論文 参考訳(メタデータ) (2025-05-23T14:06:26Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models [0.6827423171182154]
Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。
ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。
10トークン未満の小さなチャンクは、精度を31-42%向上させます。
論文 参考訳(メタデータ) (2025-02-21T06:38:57Z) - From Documents to Dialogue: Building KG-RAG Enhanced AI Assistants [28.149173430599525]
我々は、知識グラフ(KG)を利用した検索型拡張生成(RAG)フレームワークを使用して、外部知識ソースから関連情報を検索する。
我々のKG-RAGシステムは、応答を生成するLLMに送信される前に、ユーザのコンテキストに付加された関連する前兆を検索する。
評価の結果,本手法は応答関連性を大幅に向上させ,無関係な回答を50%以上削減し,既存の生産システムと比較して88%以上,完全関連性のある回答を増大させることがわかった。
論文 参考訳(メタデータ) (2025-02-21T06:22:12Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Unsupervised Text Representation Learning via Instruction-Tuning for Zero-Shot Dense Retrieval [19.422003299376]
命令チューニングによる教師なしテキスト表現学習手法を提案する。
関連する合成クエリの表現によってコーパス表現を拡張できることを実証する。
我々は,全指標の平均ゼロショット検索性能を著しく改善した。
論文 参考訳(メタデータ) (2024-09-24T23:03:13Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。