論文の概要: SPAR: Session-based Pipeline for Adaptive Retrieval on Legacy File Systems
- arxiv url: http://arxiv.org/abs/2512.12938v1
- Date: Mon, 15 Dec 2025 02:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.514037
- Title: SPAR: Session-based Pipeline for Adaptive Retrieval on Legacy File Systems
- Title(参考訳): SPAR: レガシーファイルシステムにおける適応検索のためのセッションベースパイプライン
- Authors: Duy A. Nguyen, Hai H. Do, Minh Doan, Minh N. Do,
- Abstract要約: SPAR(Session-based Pipeline for Adaptive Retrieval)は、大規模言語モデルをレトリーバル拡張生成(RAG)アーキテクチャに統合する概念的なフレームワークである。
セマンティックメタデータインデックスが最初に作成され、セッション固有のベクトルデータベースが必要に応じて動的に生成される。
この設計は、透明性、制御可能性、検索の関連性を改善しながら、計算オーバーヘッドを低減する。
- 参考スコア(独自算出の注目度): 6.5637131627375505
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability to extract value from historical data is essential for enterprise decision-making. However, much of this information remains inaccessible within large legacy file systems that lack structured organization and semantic indexing, making retrieval and analysis inefficient and error-prone. We introduce SPAR (Session-based Pipeline for Adaptive Retrieval), a conceptual framework that integrates Large Language Models (LLMs) into a Retrieval-Augmented Generation (RAG) architecture specifically designed for legacy enterprise environments. Unlike conventional RAG pipelines, which require costly construction and maintenance of full-scale vector databases that mirror the entire file system, SPAR employs a lightweight two-stage process: a semantic Metadata Index is first created, after which session-specific vector databases are dynamically generated on demand. This design reduces computational overhead while improving transparency, controllability, and relevance in retrieval. We provide a theoretical complexity analysis comparing SPAR with standard LLM-based RAG pipelines, demonstrating its computational advantages. To validate the framework, we apply SPAR to a synthesized enterprise-scale file system containing a large corpus of biomedical literature, showing improvements in both retrieval effectiveness and downstream model accuracy. Finally, we discuss design trade-offs and outline open challenges for deploying SPAR across diverse enterprise settings.
- Abstract(参考訳): 過去のデータから価値を抽出する能力は、企業の意思決定に不可欠である。
しかし、これらの情報の多くは、構造化された組織やセマンティックインデックスが欠如し、検索と分析が非効率でエラーを起こしている大規模なレガシーファイルシステムではアクセスできないままである。
SPAR(Session-based Pipeline for Adaptive Retrieval)は,Large Language Models(LLM)をレガシエンタプライズ環境用に特別に設計されたRetrieval-Augmented Generation(RAG)アーキテクチャに統合する概念的フレームワークである。
ファイルシステム全体を反映したフルスケールのベクトルデータベースの構築とメンテナンスを必要とする従来のRAGパイプラインとは異なり、SPARは軽量な2段階のプロセスを採用している。
この設計は、透明性、制御可能性、検索の関連性を改善しながら、計算オーバーヘッドを低減する。
本稿では,SPAR と標準 LLM ベースのRAG パイプラインを比較した理論的複雑性解析を行い,その計算上の利点を実証する。
この枠組みを検証するため、SPARを大量の生物医学文献を含む合成エンタープライズ規模のファイルシステムに適用し、検索精度とダウンストリームモデルの精度を向上した。
最後に、設計上のトレードオフについて議論し、さまざまなエンタープライズ環境にまたがってSPARをデプロイする際のオープンな課題を概説する。
関連論文リスト
- A Simple and Effective Framework for Symmetric Consistent Indexing in Large-Scale Dense Retrieval [11.72564658353791]
大規模情報検索システムでは,高効率・競争精度のため,高密度検索が業界標準となっている。
広く採用されているデュアルトウワー符号化アーキテクチャは、主に表現空間のミスアライメントと検索インデックスの不整合という、固有の課題を導入している。
本稿では2つの相乗的モジュールからなるシンプルで効果的なSCIフレームワークを提案する。
提案手法の有効性は,公開データセットと実世界のeコマースデータセットにまたがる結果によって検証され,理論的に保証される。
論文 参考訳(メタデータ) (2025-12-15T08:11:24Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - Metadata-Driven Retrieval-Augmented Generation for Financial Question Answering [0.0]
文脈的にリッチなドキュメントチャンクを作成するための高度なインデックスパイプラインを導入します。
我々は、検索前フィルタリング、検索後再ランク付け、エンリッチな埋め込みなど、さまざまな拡張のスペクトルをベンチマークする。
提案する最適アーキテクチャは、LLM駆動の事前検索最適化とコンテキスト埋め込みを組み合わせることで、優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T13:16:36Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - SPAR: Scholar Paper Retrieval with LLM-based Agents for Enhanced Academic Search [2.8085728901059848]
本稿では、RefChainベースのクエリ分解とクエリ進化を組み込んだマルチエージェントフレームワークであるSPARを紹介する。
また、専門家アノテートされた関連ラベルを持つ挑戦的なベンチマークであるSPARBenchを構築した。
実験の結果、SPARは強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-07-21T05:06:53Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - eSapiens: A Real-World NLP Framework for Multimodal Document Understanding and Enterprise Knowledge Processing [6.450269621190948]
企業環境での質問応答システムeSapiensを紹介する。
eSapiensは、二重モジュールアーキテクチャを介して構造化データベースと非構造化コーパスをブリッジする。
我々は、RAGTruthベンチマークでeSapiensを評価し、完全性、幻覚、文脈利用といった重要な側面における性能を分析した。
論文 参考訳(メタデータ) (2025-06-20T06:07:20Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Augmented Knowledge Graph Querying leveraging LLMs [2.5311562666866494]
我々は、知識グラフ(KG)のクエリを強化するフレームワークであるSparqLLMを紹介する。
SparqLLMは、生データからKGを構築するために、Extract, Transform, and Load (ETL)パイプラインを実行する。
また、Large Language Models(LLMs)を利用した自然言語インターフェースを備え、自動SPARQLクエリ生成を実現している。
論文 参考訳(メタデータ) (2025-02-03T12:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。