論文の概要: eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2507.09588v1
- Date: Sun, 13 Jul 2025 11:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.565399
- Title: eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation
- Title(参考訳): eSapiens: セキュアで監査可能な検索機能を備えた生成プラットフォーム
- Authors: Isaac Shi, Zeyuan Li, Fan Liu, Wenli Wang, Lewei He, Yang Yang, Tianyu Shi,
- Abstract要約: eSapiensはAI(AI)プラットフォームで、ビジネス指向のトリフェクタ(プロプライエタリなデータ、運用、主要な言語モデル(LLM))を中心に開発されている。
eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
- 参考スコア(独自算出の注目度): 10.667949307405983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present eSapiens, an AI-as-a-Service (AIaaS) platform engineered around a business-oriented trifecta: proprietary data, operational workflows, and any major agnostic Large Language Model (LLM). eSapiens gives businesses full control over their AI assets, keeping everything in-house for AI knowledge retention and data security. eSapiens AI Agents (Sapiens) empower your team by providing valuable insights and automating repetitive tasks, enabling them to focus on high-impact work and drive better business outcomes. The system integrates structured document ingestion, hybrid vector retrieval, and no-code orchestration via LangChain, and supports top LLMs including OpenAI, Claude, Gemini, and DeepSeek. A key component is the THOR Agent, which handles structured SQL-style queries and generates actionable insights over enterprise databases. To evaluate the system, we conduct two experiments. First, a retrieval benchmark on legal corpora reveals that a chunk size of 512 tokens yields the highest retrieval precision (Top-3 accuracy: 91.3%). Second, a generation quality test using TRACe metrics across five LLMs shows that eSapiens delivers more context-consistent outputs with up to a 23% improvement in factual alignment. These results demonstrate the effectiveness of eSapiens in enabling trustworthy, auditable AI workflows for high-stakes domains like legal and finance.
- Abstract(参考訳): 私たちはeSapiensというAI-as-a-Service(AIaaS)プラットフォームを紹介します。これは、プロプライエタリなデータ、運用ワークフロー、および主要な非依存の大規模言語モデル(LLM)という、ビジネス指向のトリフェクタを中心に開発されたものです。
eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
eSapiens AI Agents (Sapiens)は、価値ある洞察を提供し、反復的なタスクを自動化することで、高いインパクトのある作業に集中し、より良いビジネス成果を得られるようにすることで、チームに力を与えます。
このシステムは構造化ドキュメントの取り込み、ハイブリッドベクター検索、LangChain経由のノーコードオーケストレーションを統合し、OpenAI、Claude、Gemini、DeepSeekなどのトップLLMをサポートする。
主要なコンポーネントはTHOR Agentで、構造化SQLスタイルのクエリを処理し、エンタープライズデータベース上で実行可能な洞察を生成する。
このシステムを評価するために,2つの実験を行った。
第一に、法定コーパスの検索ベンチマークでは、512トークンのチャンクサイズが最も精度が高い(Top-3精度:91.3%)。
第2に、TRACeメトリクスを5つのLLMで使用した世代品質テストでは、eSapiensは、よりコンテキスト一貫性のある出力を提供し、実際のアライメントが最大23%改善されている。
これらの結果は、法律やファイナンスのような高度なドメインに対して、信頼できる監査可能なAIワークフローを実現するためのeSapiensの有効性を実証している。
関連論文リスト
- Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling [18.390443362388623]
Trae Agentは、リポジトリレベルのイシュー解決のための、最初のエージェントベースのアンサンブル推論アプローチである。
広範に評価されたSWEベンチマークにおいて,3つの主要な大規模言語モデル(LLM)を用いて実験を行った。
Trae Agentは、Pass@1の観点で、すべてのベースラインに対して平均10.22%の改善で、一貫して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:37:22Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level [73.14232472724758]
我々は、エンドツーエンドの自律データサイエンスエージェントであるAgent K v1.0を紹介する。
経験から学ぶことによって、データサイエンスのライフサイクル全体を管理する。
キー情報を選択的に保存して検索することで、長期記憶と短期記憶を最適化する。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。