論文の概要: Merlin: Deterministic Byte-Exact Deduplication for Lossless Context Optimization in Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2605.09990v1
- Date: Mon, 11 May 2026 05:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.533333
- Title: Merlin: Deterministic Byte-Exact Deduplication for Lossless Context Optimization in Large Language Model Inference
- Title(参考訳): Merlin: 大規模言語モデル推論における無意味なコンテキスト最適化のための決定論的Byte-exact重複
- Authors: Sietse Schelpe,
- Abstract要約: Merlinは、テキストパスとデータチャンクの高速かつバイト単位の重複を高速に実行する。
我々の評価では、低冗長データセットの13.9%から高冗長パイプラインの71%以上まで、入力の削減が示されている。
本稿では、コアアルゴリズム設計、性能ベンチマーク、および最大8.7GB/sの持続的な速度でデータを処理するために必要なアーキテクチャ原則について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-intensive applications, ranging from large-scale retrieval systems to advanced data pipelines, are increasingly bottlenecked by the processing of highly redundant text corpora. We present Merlin, a local-first, agnostic, high-throughput deduplication and context optimization engine designed to mitigate these inefficiencies. Utilizing a highly optimized, SIMD-friendly open-addressing flat hash set combined with xxHash3-64, Merlin performs rapid, byte-exact deduplication of text passages and data chunks. While broadly applicable to any text-processing workflow, its impact is particularly pronounced in Large Language Model (LLM) ecosystems, such as Retrieval-Augmented Generation (RAG). Our empirical evaluations demonstrate an input reduction ranging from 13.9% in low-redundancy datasets to over 71% in high-redundancy pipelines, maintaining absolute data fidelity. Furthermore, we detail the system's integration architecture via the Model Context Protocol (MCP), enabling secure, zero-network-interception deployment across major IDEs and autonomous agents. This paper outlines the core algorithmic design, performance benchmarks, and the architectural principles required to process data at sustained speeds of up to 8.7 GB/s.
- Abstract(参考訳): 大規模検索システムから高度なデータパイプラインまで、データ集約型アプリケーションは、高度に冗長なテキストコーパスの処理によって、ますますボトルネックになっている。
我々は、これらの非効率を緩和するために設計された、ローカルファースト、非依存、高スループットの重複とコンテキスト最適化エンジンであるMerlinを提示する。
高度に最適化されたSIMDフレンドリーなオープンアドレッシングフラットハッシュセットとxxHash3-64を組み合わせることで、Merlinはテキストパスとデータチャンクを高速かつ正確に複製する。
あらゆるテキスト処理ワークフローに適用できるが、その影響は特にRetrieval-Augmented Generation (RAG)のようなLarge Language Model (LLM)エコシステムで顕著である。
実験による評価では、低冗長データセットの13.9%から、高冗長パイプラインの71%以上まで、絶対データの完全性を維持している。
さらに、主要なIDEや自律エージェントにまたがるセキュアでゼロネットワーク・インターセプションのデプロイを可能にする、モデルコンテキストプロトコル(MCP)を介して、システムの統合アーキテクチャを詳述する。
本稿では、コアアルゴリズム設計、性能ベンチマーク、および最大8.7GB/sの持続的な速度でデータを処理するために必要なアーキテクチャ原則について概説する。
関連論文リスト
- Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - InvertiTune: High-Quality Data Synthesis for Cost-Effective Single-Shot Text-to-Knowledge Graph Generation [22.34499569359914]
InvertiTuneは、制御されたデータ生成パイプラインと教師付き微調整を組み合わせたフレームワークである。
InvertiTuneは、最先端のText2KGアプローチと同様に、大型の非微調整LDMよりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-12-02T19:51:28Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。