論文の概要: Compressed Concatenation of Small Embedding Models
- arxiv url: http://arxiv.org/abs/2510.04626v1
- Date: Mon, 06 Oct 2025 09:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.779417
- Title: Compressed Concatenation of Small Embedding Models
- Title(参考訳): 微小埋め込みモデルの圧縮結合
- Authors: Mohamed Ayoub Ben Ayad, Michael Dinzinger, Kanishka Ghosh Dastidar, Jelena Mitrovic, Michael Granitzer,
- Abstract要約: 本稿では,Matryoshka Representation Learning (MRL) の損失をトレーニングした軽量統一デコーダを提案する。
このデコーダは、高次元の関節表現を低次元空間にマッピングし、ベースモデルを微調整することなく、元の性能の大部分を保存する。
実験の結果,MTEB検索タスクのサブセットでは,コンカットエンコード量子化パイプラインが48倍圧縮係数で元の性能の89%を回復することがわかった。
- 参考スコア(独自算出の注目度): 3.051427923344231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding models are central to dense retrieval, semantic search, and recommendation systems, but their size often makes them impractical to deploy in resource-constrained environments such as browsers or edge devices. While smaller embedding models offer practical advantages, they typically underperform compared to their larger counterparts. To bridge this gap, we demonstrate that concatenating the raw embedding vectors of multiple small models can outperform a single larger baseline on standard retrieval benchmarks. To overcome the resulting high dimensionality of naive concatenation, we introduce a lightweight unified decoder trained with a Matryoshka Representation Learning (MRL) loss. This decoder maps the high-dimensional joint representation to a low-dimensional space, preserving most of the original performance without fine-tuning the base models. We also show that while concatenating more base models yields diminishing gains, the robustness of the decoder's representation under compression and quantization improves. Our experiments show that, on a subset of MTEB retrieval tasks, our concat-encode-quantize pipeline recovers 89\% of the original performance with a 48x compression factor when the pipeline is applied to a concatenation of four small embedding models.
- Abstract(参考訳): 埋め込みモデルは、密度の高い検索、セマンティック検索、レコメンデーションシステムの中心であるが、そのサイズは、ブラウザやエッジデバイスのようなリソース制約のある環境でのデプロイを非現実的にすることが多い。
より小さな埋め込みモデルは実用的な利点を提供するが、一般的により大きな埋め込みモデルに比べて性能が劣る。
このギャップを埋めるために、複数の小さなモデルの生の埋め込みベクトルを連結することで、標準のベンチマークで1つの大きなベースラインより優れていることを示す。
そこで我々は,Matryoshka Representation Learning (MRL) の損失を訓練した軽量統一デコーダを導入する。
このデコーダは、高次元の関節表現を低次元空間にマッピングし、ベースモデルを微調整することなく、元の性能の大部分を保存する。
また、より多くのベースモデルを連結すると利得は減少するが、デコーダの圧縮と量子化による表現の堅牢性は向上することを示した。
MTEB検索タスクのサブセットにおいて,このパイプラインが4つの小さな埋め込みモデルの組み合わせに適用された場合,コンカットエンコード量子化パイプラインは,48倍の圧縮係数で元の性能の99%を回復することを示した。
関連論文リスト
- Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - Leveraging Decoder Architectures for Learned Sparse Retrieval [26.483483554222012]
Learned Sparse Retrieval (LSR) は従来,エンコーダのみの小型トランスアーキテクチャに重点を置いてきた。
本研究では,異なるトランスアーキテクチャにおけるLSRの有効性について検討した。
論文 参考訳(メタデータ) (2025-04-25T08:04:52Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Merging Feed-Forward Sublayers for Compressed Transformers [16.746335565636976]
モデル内の類似パラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。
具体的には、Transformerモデルでフィードフォワードサブレイヤを分離し、アライメントし、マージする。
モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら、元のモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-10T17:25:11Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文 参考訳(メタデータ) (2021-04-21T14:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。