論文の概要: Accelerating Inference for Sparse Extreme Multi-Label Ranking Trees
- arxiv url: http://arxiv.org/abs/2106.02697v1
- Date: Fri, 4 Jun 2021 20:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 13:50:23.110106
- Title: Accelerating Inference for Sparse Extreme Multi-Label Ranking Trees
- Title(参考訳): 急激なマルチラベルランキング木に対する高速化推論
- Authors: Philip A. Etter, Kai Zhong, Hsiang-Fu Yu, Lexing Ying, Inderjit
Dhillon
- Abstract要約: Masked sparse chunk multiplication (MSCM) は、XMR木に特化されたスパース行列法である。
MSCMは実装が容易で、恥ずかしく並列化でき、既存のツリー推論パイプラインに大幅なパフォーマンス向上を提供する。
- 参考スコア(独自算出の注目度): 18.629310122813738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tree-based models underpin many modern semantic search engines and
recommender systems due to their sub-linear inference times. In industrial
applications, these models operate at extreme scales, where every bit of
performance is critical. Memory constraints at extreme scales also require that
models be sparse, hence tree-based models are often back-ended by sparse matrix
algebra routines. However, there are currently no sparse matrix techniques
specifically designed for the sparsity structure one encounters in tree-based
models for extreme multi-label ranking/classification (XMR/XMC) problems. To
address this issue, we present the masked sparse chunk multiplication (MSCM)
technique, a sparse matrix technique specifically tailored to XMR trees. MSCM
is easy to implement, embarrassingly parallelizable, and offers a significant
performance boost to any existing tree inference pipeline at no cost. We
perform a comprehensive study of MSCM applied to several different sparse
inference schemes and benchmark our methods on a general purpose extreme
multi-label ranking framework. We observe that MSCM gives consistently dramatic
speedups across both the online and batch inference settings, single- and
multi-threaded settings, and on many different tree models and datasets. To
demonstrate its utility in industrial applications, we apply MSCM to an
enterprise-scale semantic product search problem with 100 million products and
achieve sub-millisecond latency of 0.88 ms per query on a single thread -- an
8x reduction in latency over vanilla inference techniques. The MSCM technique
requires absolutely no sacrifices to model accuracy as it gives exactly the
same results as standard sparse matrix techniques. Therefore, we believe that
MSCM will enable users of XMR trees to save a substantial amount of compute
resources in their inference pipelines at very little cost.
- Abstract(参考訳): 木に基づくモデルは、多くの現代的なセマンティック検索エンジンとレコメンダシステムを支える。
産業アプリケーションでは、これらのモデルは極端なスケールで動作し、あらゆるパフォーマンスが重要になります。
極端なスケールでのメモリ制約は、モデルがスパースであることを要求するため、ツリーベースのモデルはスパース行列代数のルーチンによってしばしば後ろ向きになる。
しかしながら、xmr/xmc(extreme multi-label ranking/classification)問題に対する木ベースのモデルで遭遇するスパース性構造のために特別に設計されたスパースマトリックス技術は存在しない。
この問題に対処するために,マスク付きスパースチャンク乗算(MSCM)技術,特にXMR木に適したスパースマトリクス技術を提案する。
MSCMは実装が容易で、恥ずかしいほど並列化可能で、既存のツリー推論パイプラインに対して、コストなしで大幅なパフォーマンス向上を提供します。
我々は,複数の異なるスパース推論スキームに適用したmscmの包括的研究を行い,汎用的極端多ラベルランキングフレームワーク上での手法のベンチマークを行う。
我々は、mscmがオンラインとバッチの両方の推論設定、シングルスレッドとマルチスレッド設定、および多くの異なるツリーモデルとデータセットにおいて一貫して劇的なスピードアップをもたらすことを観察する。
産業アプリケーションにおいて、MSCMを1億の製品でエンタープライズ規模のセマンティック製品検索問題に適用し、1つのスレッドでクエリあたり0.08msのサブミリ秒レイテンシを実現する -- バニラ推論技術よりも8倍のレイテンシ削減 -- に適用する。
MSCM技術は、標準スパース行列技術と全く同じ結果を与えるため、精度をモデル化するのに全く犠牲を要しない。
したがって、MSCMにより、XMRツリーのユーザは、推論パイプラインにかなりの量の計算リソースを非常に少ないコストで節約できると信じている。
関連論文リスト
- An efficient solution to Hidden Markov Models on trees with coupled branches [0.0]
木上の隠れモデル(HMM)のフレームワークを拡張して、データのツリーのような構造が結合されたブランチを含むシナリオに対処する。
本研究では,木系HMMと分岐した分岐木に対する確率,復号化,パラメータ学習問題を効率的に解くプログラミングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-06-03T18:00:00Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Single MCMC Chain Parallelisation on Decision Trees [0.9137554315375919]
本稿では,平均的なラップトップやパソコン上でMCMC決定ツリーチェーンを並列化する手法を提案する。
実験の結果,シリアルと並列実装が統計的に同一である場合,実行時間を18倍に向上できることがわかった。
論文 参考訳(メタデータ) (2022-07-26T07:07:51Z) - MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems [0.0]
本稿では,事前学習時にマルチタスクとマルチデコーダを利用する新しいモデルMMTMを提案する。
MMTMモデルはより優れた数学的推論能力と一般化可能性を実現する。
我々は,Seq2Seq,GTS,Graph2Treeのアートベースラインモデルの最高の状態を,対向的課題データセットSVAMPに対して19.4%の相対的な改善で証明する。
論文 参考訳(メタデータ) (2022-06-02T19:48:36Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Extreme Multi-label Learning for Semantic Matching in Product Search [41.66238191444171]
顧客クエリが与えられたら、1億以上の巨大なカタログから、すべてのセマンティック関連製品を取得する。
高速リアルタイム推論のためのn-gram特徴を持つ階層線形モデルを考える。
提案手法では,クエリ毎1.25ミリ秒の低レイテンシを維持し,Recall@100の65%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-23T21:16:52Z) - CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。
CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。
我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文 参考訳(メタデータ) (2021-05-10T07:31:59Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。