論文の概要: Designing Scalable Rate Limiting Systems: Algorithms, Architecture, and Distributed Solutions
- arxiv url: http://arxiv.org/abs/2602.11741v1
- Date: Thu, 12 Feb 2026 09:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.739776
- Title: Designing Scalable Rate Limiting Systems: Algorithms, Architecture, and Distributed Solutions
- Title(参考訳): スケーラブルなレート制限システムの設計:アルゴリズム、アーキテクチャ、分散ソリューション
- Authors: Bo Guan,
- Abstract要約: 本稿では,実運用環境における分散レート制限システムのための具体的なアーキテクチャについて述べる。
我々の設計では、Sorted Setデータ構造とともに、インメモリキャッシュデータベースであるRedisを選択します。
システムアーキテクチャでは,制限ルールの格納と更新を管理する3層アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.7614628596146601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing a rate limiter that is simultaneously accurate, available, and scalable presents a fundamental challenge in distributed systems, primarily due to the trade-offs between algorithmic precision, availability, consistency, and partition tolerance. This article presents a concrete architecture for a distributed rate limiting system in a production-grade environment. Our design chooses the in-memory cache database, the Redis, along with its Sorted Set data structure, which provides $O(log (N))$ time complexity operation for the key-value pair dataset with efficiency and low latency, and maintains precision. The core contribution is quantifying the accuracy and memory cost trade-off of the chosen Rolling Window as the implemented rate limiting algorithm against the Token Bucket and Fixed Window algorithms. In addition, we explain how server-side Lua scripting is critical to bundling cleanup, counting, and insertion into a single atomic operation, thereby eliminating race conditions in concurrent environments. In the system architecture, we propose a three-layer architecture that manages the storage and updating of the limit rules. Through script load by hashing the rule parameters, rules can be changed without modifying the cached scripts. Furthermore, we analyze the deployment of this architecture on a Redis Cluster, which provides the availability and scalability by data sharding and replication. We explain the acceptance of AP (Availability and Partition Tolerance) from the CAP theorem as the pragmatic engineering trade-off for this use case.
- Abstract(参考訳): 同時に正確で可用性があり、スケーラブルなレートリミッタを設計することは、主にアルゴリズムの精度、可用性、一貫性、パーティショントレランスのトレードオフによって、分散システムにおける根本的な課題を提示します。
本稿では,実運用環境における分散レート制限システムのための具体的なアーキテクチャについて述べる。
我々の設計では、メモリ内のキャッシュデータベースであるRedisとSorted Setデータ構造を選択し、効率とレイテンシの低いキー値ペアデータセットに対して$O(log (N))の時間複雑性演算を提供し、精度を維持します。
コアコントリビューションは、選択したRolling Windowの精度とメモリコストのトレードオフを、Token BucketとFixed Windowアルゴリズムに対して実装されたレート制限アルゴリズムとして定量化することである。
さらに,サーバサイドのLuaスクリプティングが,クリーンアップ,カウント,挿入をひとつのアトミック操作に組み込むことによって,コンカレント環境における競合条件の排除にいかに重要かを説明する。
システムアーキテクチャでは,制限ルールの格納と更新を管理する3層アーキテクチャを提案する。
ルールパラメータをハッシュすることでスクリプトのロードを通じて、キャッシュされたスクリプトを変更することなくルールを変更することができる。
さらに、このアーキテクチャのRedis Clusterへの展開を分析し、データのシャーディングとレプリケーションによる可用性とスケーラビリティを提供する。
本稿では,CAP定理からのAP(Availability and Partition Tolerance)の受容を実用工学的トレードオフとして説明する。
関連論文リスト
- ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference [0.21064685964744576]
ChunkWise LoRAはトークンの複雑さに基づいてシーケンスを可変長のチャンクに分割し、各チャンクに調整されたローランク構成を割り当てる。
Wikitext-103やSQuADのようなベンチマークデータセットの実験では、ChunkWise LoRAは最大で34%のレイテンシと38%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2026-01-28T22:58:28Z) - Queueing-Aware Optimization of Reasoning Tokens for Accuracy-Latency Trade-offs in LLM Servers [4.3400407844814985]
我々は,1つの大規模言語モデル (LLM) サーバを,$N$の異なるタスクタイプに属するクエリの異種ストリームを提供する。
各タスクタイプに対して、サーバは一定の数の内部思考トークンを割り当て、クエリに費やされる計算労力を決定する。
平均系時間で計算された重み付き平均精度目標を最大化する制約付き最適化問題を定式化する。
論文 参考訳(メタデータ) (2026-01-15T10:47:11Z) - AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving [16.664502126572856]
AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。
GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。
これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
論文 参考訳(メタデータ) (2026-01-09T20:03:57Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Tractable Bounding of Counterfactual Queries by Knowledge Compilation [51.47174989680976]
本稿では, パール構造因果モデルにおいて, 因果関係などの部分的特定可能なクエリのバウンダリングの問題について議論する。
最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。
シンボルパラメータを実際の値に置き換えた回路構造を,単一のシンボル知識コンパイルによって得られることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:10:40Z) - Shapley-NAS: Discovering Operation Contribution for Neural Architecture
Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。
提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-20T14:41:49Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。