論文の概要: Spectral Tempering for Embedding Compression in Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2603.19339v1
- Date: Thu, 19 Mar 2026 10:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.814744
- Title: Spectral Tempering for Embedding Compression in Dense Passage Retrieval
- Title(参考訳): デンスパッセージ検索におけるエンベディング圧縮のスペクトルテンパリング
- Authors: Yongkang Li, Panagiotis Eustratiadis, Evangelos Kanoulas,
- Abstract要約: 最適スケーリング強度$$はグローバル定数ではないことを示す。
本研究では,適応的な$(k)$をコーパス固有スペクトルから直接導出する学習自由化手法であるSpectral Temperingを提案する。
- 参考スコア(独自算出の注目度): 17.660889990235656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dimensionality reduction is critical for deploying dense retrieval systems at scale, yet mainstream post-hoc methods face a fundamental trade-off: principal component analysis (PCA) preserves dominant variance but underutilizes representational capacity, while whitening enforces isotropy at the cost of amplifying noise in the heavy-tailed eigenspectrum of retrieval embeddings. Intermediate spectral scaling methods unify these extremes by reweighting dimensions with a power coefficient $γ$, but treat $γ$ as a fixed hyperparameter that requires task-specific tuning. We show that the optimal scaling strength $γ$ is not a global constant: it varies systematically with target dimensionality $k$ and is governed by the signal-to-noise ratio (SNR) of the retained subspace. Based on this insight, we propose Spectral Tempering (\textbf{SpecTemp}), a learning-free method that derives an adaptive $γ(k)$ directly from the corpus eigenspectrum using local SNR analysis and knee-point normalization, requiring no labeled data or validation-based search. Extensive experiments demonstrate that Spectral Tempering consistently achieves near-oracle performance relative to grid-searched $γ^*(k)$ while remaining fully learning-free and model-agnostic. Our code is publicly available at https://anonymous.4open.science/r/SpecTemp-0D37.
- Abstract(参考訳): 主成分分析(PCA)は、主成分分析(PCA)は、支配的な分散を保ちながら表現能力の低下を図り、一方、ホワイトニングは、検索埋め込みの重み付き固有スペクトルの雑音を増幅するコストで、等方性を強制する。
中間スペクトルスケーリング法は、これらの極端をパワー係数$γ$で再重み付けすることで統一するが、$γ$をタスク固有のチューニングを必要とする固定されたハイパーパラメータとして扱う。
最適スケーリング強度$γ$は大域定数ではなく、対象次元$k$と体系的に変化し、保持部分空間の信号-雑音比(SNR)によって支配されることを示す。
この知見に基づいて、局所的なSNR分析と膝点正規化を用いて、適応的な$γ(k)$をコーパス固有スペクトルから直接導出し、ラベル付きデータや検証に基づく探索を必要としない学習自由化手法であるスペクトルテンパリング(\textbf{SpecTemp})を提案する。
広汎な実験により、スペクトルテンパリングは、グリッド探索された$γ^*(k)$に対して、完全に学習不能でモデルに依存しないまま、ほぼオーラルに近い性能を達成することを示した。
私たちのコードはhttps://anonymous.4open.science/r/SpecTemp-0D37で公開されています。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Spectral Perturbation Bounds for Low-Rank Approximation with Applications to Privacy [13.264499801590583]
mathbbRn 倍 n$ の対称行列 $A と任意の対称摂動 E$ に対して、新しい高確率スペクトル-ノルム摂動境界を導入する。
穏やかな固有ギャップとノルム条件の下では、我々の境界は$|(A + E)_p - A_p|$に対して鋭い推定値を得るが、最大で$sqrtn$となる。
応用として,PCAの実用性保証の改善を導出し,文献の未解決問題を解消する。
論文 参考訳(メタデータ) (2025-10-29T16:36:00Z) - deep-REMAP: Probabilistic Parameterization of Stellar Spectra Using Regularized Multi-Task Learning [0.0]
Deep-REMAPは、観測されたスペクトルから恒星の大気パラメータを予測するために、正規化されたマルチタスクアプローチを利用する新しいディープラーニングフレームワークである。
我々は、PHOENIX合成スペクトルライブラリ上で深層畳み込みニューラルネットワークを訓練し、転送学習を用いて、観測されたFGK準スペクトルの小さなサブセットでモデルを微調整する。
Deep-REMAPは有効温度(T_rmeff$)、表面重力(log rmg$)、金属性([Fe/H])を正確に回復し、例えば約75KのTの精度を達成する。
論文 参考訳(メタデータ) (2025-10-10T13:20:06Z) - Truncated Kernel Stochastic Gradient Descent on Spheres [1.4583059436979549]
球面高調波の構造に着想を得て,T-カーネルSGDアルゴリズムを提案する。
TカーネルSGDは、球面データフィッティングのための最小二乗損失関数を有する。
論文 参考訳(メタデータ) (2024-10-02T14:09:51Z) - Hyperspectral Image Denoising Using Non-convex Local Low-rank and Sparse
Separation with Spatial-Spectral Total Variation Regularization [49.55649406434796]
本研究では,HSI復調のためのロバストな主成分分析のための新しい非特異なアプローチを提案する。
我々は、ランクとスパースコンポーネントの両方に対する正確な近似を開発する。
シミュレーションと実HSIの両方の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-08T11:48:46Z) - Towards Sample-Optimal Compressive Phase Retrieval with Sparse and
Generative Priors [59.33977545294148]
O(k log L)$サンプルは振幅に基づく経験損失関数を最小化する任意のベクトルに信号が近いことを保証するのに十分であることを示す。
この結果はスパース位相検索に適応し、基底信号が$s$-sparseおよび$n$-dimensionalである場合、$O(s log n)$サンプルは同様の保証に十分であることを示す。
論文 参考訳(メタデータ) (2021-06-29T12:49:54Z) - Spectral density estimation with the Gaussian Integral Transform [91.3755431537592]
スペクトル密度作用素 $hatrho(omega)=delta(omega-hatH)$ は線形応答論において中心的な役割を果たす。
スペクトル密度を近似する近似量子アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-04-10T03:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。