論文の概要: Sig2Model: A Boosting-Driven Model for Updatable Learned Indexes
- arxiv url: http://arxiv.org/abs/2509.20781v1
- Date: Thu, 25 Sep 2025 06:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.719475
- Title: Sig2Model: A Boosting-Driven Model for Updatable Learned Indexes
- Title(参考訳): Sig2Model: アップダブル学習インデックスのためのブースティング駆動モデル
- Authors: Alireza Heidari, Amirhossein Ahmad, Wei Zhang, Ying Xiong,
- Abstract要約: Sig2Modelは効率的で適応的な学習指標であり、3つの主要な手法による再学習コストを最小限に抑える。
Sig2Modelは、トレーニングコストを最大20倍に削減し、最大3倍高いQPSを実現し、最大1000倍のメモリを使用する。
- 参考スコア(独自算出の注目度): 6.133666849556217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned Indexes (LIs) represent a paradigm shift from traditional index structures by employing machine learning models to approximate the cumulative distribution function (CDF) of sorted data. While LIs achieve remarkable efficiency for static datasets, their performance degrades under dynamic updates: maintaining the CDF invariant (sum of F(k) equals 1) requires global model retraining, which blocks queries and limits the queries-per-second (QPS) metric. Current approaches fail to address these retraining costs effectively, rendering them unsuitable for real-world workloads with frequent updates. In this paper, we present Sig2Model, an efficient and adaptive learned index that minimizes retraining cost through three key techniques: (1) a sigmoid boosting approximation technique that dynamically adjusts the index model by approximating update-induced shifts in data distribution with localized sigmoid functions while preserving bounded error guarantees and deferring full retraining; (2) proactive update training via Gaussian mixture models (GMMs) that identifies high-update-probability regions for strategic placeholder allocation to speed up updates; and (3) a neural joint optimization framework that continuously refines both the sigmoid ensemble and GMM parameters via gradient-based learning. We evaluate Sig2Model against state-of-the-art updatable learned indexes on real-world and synthetic workloads, and show that Sig2Model reduces retraining cost by up to 20x, achieves up to 3x higher QPS, and uses up to 1000x less memory.
- Abstract(参考訳): Learned Indexs(LI)は、機械学習モデルを用いてソートされたデータの累積分布関数(CDF)を近似することにより、従来のインデックス構造からのパラダイムシフトを表す。
LIは静的データセットの顕著な効率を達成するが、その性能は動的更新の下で劣化する:CDF不変量(F(k)が等しい)を維持する。
これはクエリをブロックし、クエリ毎秒(QPS)メトリックを制限する。
現在のアプローチでは、これらの再トレーニングコストに効果的に対処できないため、頻繁な更新を伴う現実世界のワークロードには適さない。
本稿では,Sig2Modelを提案する。Sig2Modelは,(1)局所的なシグミド関数によるデータ分散の更新誘起シフトを近似し,境界付きエラー保証とdefering full Retrainingを保ちながら,インデックスモデルを動的に調整するシグミドブースティング近似手法,(2)戦略的プレースホルダ割り当てのための高確率確率領域を特定して更新を高速化するガウス混合モデル(GMM)によるプロアクティブな更新トレーニング,(3)スギモドアンサンブルとGMMパラメータの両方を勾配ベースで連続的に洗練するニューラルジョイント最適化手法である。
Sig2Modelは、実世界および合成ワークロードにおける最先端のアップダブル学習インデックスに対して評価し、Sig2Modelが再トレーニングコストを最大20倍削減し、最大3倍高いQPSを実現し、最大1000倍少ないメモリを使用することを示す。
関連論文リスト
- Adacc: An Adaptive Framework Unifying Compression and Activation Recomputation for LLM Training [40.371351103295765]
大きな言語モデル(LLM)のトレーニングは、GPUメモリの制限によって制限されることが多い。
Adaccはアクティベーション再計算とデータ圧縮を統合する最初の適応型メモリ最適化フレームワークである。
Adaccは、最先端のフレームワークと比較して、トレーニングのスループットを1.01倍から1.37倍改善している。
論文 参考訳(メタデータ) (2025-08-01T17:39:25Z) - Intrinsic Training Signals for Federated Learning Aggregation [13.540945877050525]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散クライアント間で協調的なモデルトレーニングを可能にする。
この研究は、既存のトレーニング信号だけで効果的なモデルマージが達成できることを実証している。
論文 参考訳(メタデータ) (2025-07-09T13:03:23Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。
本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。
提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文 参考訳(メタデータ) (2025-01-26T14:39:01Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。
既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。
本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:02:45Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。