論文の概要: CSRv2: Unlocking Ultra-Sparse Embeddings
- arxiv url: http://arxiv.org/abs/2602.05735v3
- Date: Tue, 10 Feb 2026 01:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:42.854353
- Title: CSRv2: Unlocking Ultra-Sparse Embeddings
- Title(参考訳): CSRv2:ウルトラスパース埋め込みのアンロック
- Authors: Lixuan Guo, Yifei Wang, Tiansheng Wen, Yifan Wang, Aosong Feng, Bo Chen, Stefanie Jegelka, Chenyu You,
- Abstract要約: CSR(Contrastive Sparse Representation)は、高次元だが k-スパースベクトルに密着した埋め込みをマッピングするための有望な方向として提案されている。
CSRは、80%以上のニューロンが不活性のままである超スパース状態において深刻な劣化を被る。
CSRv2は、超スパースな埋め込みを実現するために設計された、原則化されたトレーニング手法である。
- 参考スコア(独自算出の注目度): 52.553928856110296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of large foundation models, the quality of embeddings has become a central determinant of downstream task performance and overall system capability. Yet widely used dense embeddings are often extremely high-dimensional, incurring substantial costs in storage, memory, and inference latency. To address these, Contrastive Sparse Representation (CSR) is recently proposed as a promising direction, mapping dense embeddings into high-dimensional but k-sparse vectors, in contrast to compact dense embeddings such as Matryoshka Representation Learning (MRL). Despite its promise, CSR suffers severe degradation in the ultra-sparse regime, where over 80% of neurons remain inactive, leaving much of its efficiency potential unrealized. In this paper, we introduce CSRv2, a principled training approach designed to make ultra-sparse embeddings viable. CSRv2 stabilizes sparsity learning through progressive k-annealing, enhances representational quality via supervised contrastive objectives, and ensures end-to-end adaptability with full backbone finetuning. CSRv2 reduces dead neurons from 80% to 20% and delivers a 14% accuracy gain at k=2, bringing ultra-sparse embeddings on par with CSR at k=8 and MRL at 32 dimensions, all with only two active features. While maintaining comparable performance, CSRv2 delivers a 7x speedup over MRL, and yields up to 300x improvements in compute and memory efficiency relative to dense embeddings in text representation. Extensive experiments across text and vision demonstrate that CSRv2 makes ultra-sparse embeddings practical without compromising performance, where CSRv2 achieves 7%/4% improvement over CSR when k=4 and further increases this gap to 14%/6% when k=2 in text/vision representation. By making extreme sparsity viable, CSRv2 broadens the design space for real-time and edge-deployable AI systems where both embedding quality and efficiency are critical.
- Abstract(参考訳): 大規模基盤モデルの時代には、組込みの質が下流のタスク性能とシステム全体の能力の中心的な決定要因となっている。
しかし、広く使われている濃密な埋め込みは、しばしば非常に高次元であり、ストレージ、メモリ、推論遅延にかなりのコストがかかる。
これらに対処するため、最近、Contrastive Sparse Representation (CSR) が有望な方向として提案され、Matryoshka Representation Learning (MRL) のようなコンパクトな密埋め込みとは対照的に、密埋め込みを高次元だがkスパースベクトルにマッピングする。
約束にもかかわらず、CSRは、80%以上のニューロンが不活性のままであり、その効率性の多くは未実現のままである超スパース状態の深刻な劣化に苦しむ。
本稿では,超スパースな埋め込みを実現するための原則的トレーニング手法であるCSRv2を紹介する。
CSRv2はプログレッシブkアニールによる空間学習の安定化、教師付きコントラスト目的による表現品質の向上、フルバックボーン微調整によるエンドツーエンド適応性を保証する。
CSRv2は死んだ神経細胞を80%から20%に減らし、k=2で14%の精度向上をもたらす。
同等のパフォーマンスを維持しながら、CSRv2はMRLよりも7倍のスピードアップを実現し、テキスト表現に密着した埋め込みと比較して、最大300倍の計算とメモリ効率向上を実現している。
CSRv2は、k=4のとき、CSRよりも7%/4%向上し、k=2のとき、そのギャップを14%/6%に拡大する。
CSRv2は、極端に広い範囲を有効にすることで、組み込み品質と効率の両方が重要となる、リアルタイムおよびエッジデプロイ可能なAIシステムの設計領域を広げる。
関連論文リスト
- Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention [105.11288339285154]
Efficient-LVSMは、インプットビューにビュー内自己アテンションを適用し、ターゲットビューに自己テーマ横断アテンションを適用するデュアルストリームアーキテクチャである。
2つの入力ビューを持つRealEstate10Kでは29.86dBのPSNRを実現し、LVSMを0.2dBで上回り、2倍高速なトレーニングコンバージェンスと4.4倍高速な推論速度を実現している。
論文 参考訳(メタデータ) (2026-02-06T08:11:58Z) - SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。
第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文 参考訳(メタデータ) (2025-10-26T05:03:55Z) - KeyKnowledgeRAG (K^2RAG): An Enhanced RAG method for improved LLM question-answering capabilities [2.4874078867686085]
KeyKnowledgeRAG (K2RAG)は、RAG実装の制限を克服するために設計された新しいフレームワークである。
厳密でスパースなベクトル探索、知識グラフ、テキスト要約を統合して、検索品質とシステム効率を向上させる。
K2RAGは平均回答類似度スコア0.57を達成し、第3位Q3類似度0.82を達成した。
論文 参考訳(メタデータ) (2025-07-10T12:19:03Z) - Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation [42.590255022001145]
Matryoshka Representation Learning (MRL) は適応的な埋め込み長のソリューションとして最近登場した。
スパース符号化は、最小限のオーバーヘッドと高い忠実度で適応表現を実現するための魅力的な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-03T17:59:48Z) - NVS-SQA: Exploring Self-Supervised Quality Representation Learning for Neurally Synthesized Scenes without References [57.0432939964225]
我々は,NVS-SQAを提案する。NVS-SQAは,自己スーパービジョンを通じて,非参照品質表現を学習するための品質評価手法である。
従来の自己教師型学習は、主に"same instance, similar representation"仮定と広範なデータセットに依存している。
我々は、学習の効率と効率を改善するために、フォトリアリスティックな手がかりと品質スコアを学習目的として採用する。
論文 参考訳(メタデータ) (2025-01-11T09:12:43Z) - VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction [30.201826592090885]
In-Context Operator Networks (ICONs) は、少数ショットのインコンテキスト学習を用いて様々な偏微分方程式の演算子を学習する。
既存のICONは各空間点を個々のトークンとして処理し、高次元の高密度データを処理する際に計算効率を著しく制限する。
本稿では,ビジョントランスフォーマーアーキテクチャを統合し,パッチワイズ操作による2次元データの効率的な処理を行うビジョン・イン・コンテキスト・オペレーター・ネットワーク(VICON)を提案する。
論文 参考訳(メタデータ) (2024-11-25T03:25:17Z) - Sebica: Lightweight Spatial and Efficient Bidirectional Channel Attention Super Resolution Network [0.0]
SISR(Single Image Super-Resolution)は,低解像度画像の画質向上のための重要な技術である。
本稿では,空間的および効率的な双方向チャネルアテンション機構を組み込んだ軽量ネットワークSebicaを提案する。
セビカは高い復元品質を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-10-27T18:27:07Z) - Structured Pruning for Efficient Visual Place Recognition [24.433604332415204]
視覚的位置認識(VPR)は、ロボットや機器のグローバルな再ローカライズに欠かせない。
本稿では,共通VPRアーキテクチャを合理化するための新しい構造化プルーニング手法を提案する。
この二重焦点はシステムの効率を大幅に向上させ、マップとモデルメモリの要求を減らし、特徴抽出と検索待ち時間を短縮する。
論文 参考訳(メタデータ) (2024-09-12T08:32:25Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。