論文の概要: CUBO: Self-Contained Retrieval-Augmented Generation on Consumer Laptops 10 GB Corpora, 16 GB RAM, Single-Device Deployment
- arxiv url: http://arxiv.org/abs/2602.03731v1
- Date: Tue, 03 Feb 2026 16:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.586838
- Title: CUBO: Self-Contained Retrieval-Augmented Generation on Consumer Laptops 10 GB Corpora, 16 GB RAM, Single-Device Deployment
- Title(参考訳): CUBO:Consumer Laptops 10GB Corpora, 16GB RAM, シングルデバイス展開による自己完結型検索生成
- Authors: Paolo Astrino,
- Abstract要約: 本稿では16GBの共有メモリを持つ消費者向けラップトップ向けシステム指向RAGプラットフォームCUBOについて述べる。
37,000行の検索は、C1,300ラップトップ上で185ミリ秒(p50)のレイテンシを実現する。
BEIRベンチマークの評価は、小規模から中小規模のプロ向けアーカイブの実用的デプロイ性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations handling sensitive documents face a tension: cloud-based AI risks GDPR violations, while local systems typically require 18-32 GB RAM. This paper presents CUBO, a systems-oriented RAG platform for consumer laptops with 16 GB shared memory. CUBO's novelty lies in engineering integration of streaming ingestion (O(1) buffer overhead), tiered hybrid retrieval, and hardware-aware orchestration that enables competitive Recall@10 (0.48-0.97 across BEIR domains) within a hard 15.5 GB RAM ceiling. The 37,000-line codebase achieves retrieval latencies of 185 ms (p50) on C1,300 laptops while maintaining data minimization through local-only processing aligned with GDPR Art. 5(1)(c). Evaluation on BEIR benchmarks validates practical deployability for small-to-medium professional archives. The codebase is publicly available at https://github.com/PaoloAstrino/CUBO.
- Abstract(参考訳): クラウドベースのAIはGDPR違反のリスクを負うが、ローカルシステムは通常18-32GBのRAMを必要とする。
本稿では16GBの共有メモリを持つ消費者向けラップトップ向けシステム指向RAGプラットフォームCUBOについて述べる。
CUBOの斬新さは、ストリーミングの取り込み(O(1)バッファオーバーヘッド)、階層化されたハイブリッド検索、ハード15.5GBのRAM天井内で競合するRecall@10(BEIRドメインで0.48-0.97)を可能にするハードウェア対応オーケストレーションの統合にある。
37,000行のコードベースは、GDPR Art. 5(1)(c)に準拠したローカルのみの処理によるデータ最小化を維持しながら、C1,300ラップトップ上で185ms(p50)の検索レイテンシを実現する。
BEIRベンチマークの評価は、小規模から中小規模のプロ向けアーカイブの実用的デプロイ性を評価する。
コードベースはhttps://github.com/PaoloAstrino/CUBOで公開されている。
関連論文リスト
- Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs [51.56484100374058]
FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。
Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
論文 参考訳(メタデータ) (2025-11-17T17:57:18Z) - SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment [5.141876811512978]
SmallThinkerは、ローカルデバイス向けに設計された大型言語モデル(LLM)のファミリーである。
本研究では,微細なMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2レベルスパース構造を提案する。
我々はSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースした。
論文 参考訳(メタデータ) (2025-07-28T16:45:14Z) - Prima.cpp: Fast 30-70B LLM Inference on Heterogeneous and Low-Resource Home Clusters [43.52299612686755]
オンデバイス推論は、プライバシ、オフライン使用、即時応答を提供するが、コンシューマハードウェアは、大きな言語モデル(LLM)を低スループットと能力に制限する。
本稿では,CPU/GPUの混在,RAM/VRAMの不足,ディスクの遅い,Wi-Fiリンク,異種OSを備えた家電クラスタ上で30~70B LLMを動作させる分散オンデバイス推論システムprime.を提案する。
計算・通信とディスクI/Oの重なり合うようにパイプラインリング並列化(PRP)を導入し,mapベースのオフロードにおけるプレフェッチ・リリース競合に対処する。
論文 参考訳(メタデータ) (2025-04-07T13:46:21Z) - PIPO: Pipelined Offloading for Efficient Inference on Consumer Devices [13.786008100564185]
我々は、消費者デバイス上で効率的な推論を行うための、パイプラインオフロード(PIPO)と呼ばれる新しいフレームワークを提案する。
PIPOは、推論のための高効率なスケジューリングを実現するために、最適化されたデータ転送と計算を補完するきめ細かいオフロードパイプラインを設計する。
論文 参考訳(メタデータ) (2025-03-15T08:48:38Z) - BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。