論文の概要: LLMs Meet Isolation Kernel: Lightweight, Learning-free Binary Embeddings for Fast Retrieval
- arxiv url: http://arxiv.org/abs/2601.09159v1
- Date: Wed, 14 Jan 2026 04:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.272458
- Title: LLMs Meet Isolation Kernel: Lightweight, Learning-free Binary Embeddings for Fast Retrieval
- Title(参考訳): LLMの分離カーネル - 高速検索のための軽量で学習不要なバイナリ埋め込み
- Authors: Zhibo Zhang, Yang Xu, Kai Ming Ting, Cam-Tu Nguyen,
- Abstract要約: 大規模言語モデル(LLM)は近年,テキスト表現の大幅な進歩を実現している。
埋め込みは通常高次元であり、かなりのストレージと検索オーバーヘッドをもたらす。
本稿では,LLM埋め込みをバイナリ埋め込みに変換する学習自由な手法であるEmphIsolation Kernel Embedding(IKE)を提案する。
- 参考スコア(独自算出の注目度): 16.34599155821955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently enabled remarkable progress in text representation. However, their embeddings are typically high-dimensional, leading to substantial storage and retrieval overhead. Although recent approaches such as Matryoshka Representation Learning (MRL) and Contrastive Sparse Representation (CSR) alleviate these issues to some extent, they still suffer from retrieval accuracy degradation. This paper proposes \emph{Isolation Kernel Embedding} or IKE, a learning-free method that transforms an LLM embedding into a binary embedding using Isolation Kernel (IK). IKE is an ensemble of diverse (random) partitions, enabling robust estimation of ideal kernel in the LLM embedding space, thus reducing retrieval accuracy loss as the ensemble grows. Lightweight and based on binary encoding, it offers low memory footprint and fast bitwise computation, lowering retrieval latency. Experiments on multiple text retrieval datasets demonstrate that IKE offers up to 16.7x faster retrieval and 16x lower memory usage than LLM embeddings, while maintaining comparable or better accuracy. Compared to CSR and other compression methods, IKE consistently achieves the best balance between retrieval efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,テキスト表現の大幅な進歩を実現している。
しかし、その埋め込みは通常高次元であり、かなりのストレージと検索オーバーヘッドをもたらす。
近年のMatryoshka Representation Learning (MRL) やContrastive Sparse Representation (CSR) といった手法はこれらの問題をある程度緩和しているが、精度の低下に悩まされている。
本稿では,LLM埋め込みを分離カーネル(IK)を用いたバイナリ埋め込みに変換する学習自由な手法であるemph{Isolation Kernel Embedding} または IKEを提案する。
IKEは多様な(ランダムな)パーティションのアンサンブルであり、LLM埋め込み空間における理想的なカーネルの堅牢な推定を可能にし、アンサンブルが大きくなるにつれて精度の低下を低減する。
軽量でバイナリエンコーディングに基づいており、メモリフットプリントが低く、ビット幅の計算が高速で、検索レイテンシが低下する。
複数のテキスト検索データセットの実験では、IKEはLLMの埋め込みよりも最大16.7倍高速な検索と16倍のメモリ使用量を提供し、同等またはより良い精度を維持している。
CSRや他の圧縮手法と比較して、IKEは検索効率と効率の最良のバランスを一貫して達成している。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Decoding in Latent Spaces for Efficient Inference in LLM-based Recommendation [75.72196852363116]
光遅延空間復号法(L2D)は効率的かつ効率的な遅延空間復号法である。
L2Dは言語空間の復号化よりも10倍以上高速で、性能の維持や向上が可能である。
論文 参考訳(メタデータ) (2025-09-15T02:30:35Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - DReSD: Dense Retrieval for Speculative Decoding [8.220217498103315]
投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。
我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。
Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-02-21T16:32:28Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。
PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。