論文の概要: Statistical Foundations of DIME: Risk Estimation for Practical Index Selection
- arxiv url: http://arxiv.org/abs/2601.05649v1
- Date: Fri, 09 Jan 2026 09:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.925886
- Title: Statistical Foundations of DIME: Risk Estimation for Practical Index Selection
- Title(参考訳): DIMEの統計的基礎:実際的な指標選択のためのリスク推定
- Authors: Giulio D'Erasmo, Cesare Campagnano, Antonio Mallia, Pierpaolo Brutti, Nicola Tonellotto, Fabrizio Silvestri,
- Abstract要約: 最近提案されたDIMEは、埋め込みのインフォメーションコンポーネントを特定するためのクエリ依存スコアを提供する。
我々の研究は統計的に定位された基準を提供し、推論時に各クエリに対して最適な次元の集合を直接識別する。
- 参考スコア(独自算出の注目度): 20.096777655785736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-dimensional dense embeddings have become central to modern Information Retrieval, but many dimensions are noisy or redundant. Recently proposed DIME (Dimension IMportance Estimation), provides query-dependent scores to identify informative components of embeddings. DIME relies on a costly grid search to select a priori a dimensionality for all the query corpus's embeddings. Our work provides a statistically grounded criterion that directly identifies the optimal set of dimensions for each query at inference time. Experiments confirm achieving parity of effectiveness and reduces embedding size by an average of $\sim50\%$ across different models and datasets at inference time.
- Abstract(参考訳): 高次元密度埋め込みは現代の情報検索の中心となっているが、多くの次元はノイズや冗長である。
最近提案されたDIME (Dimension IMportance Estimation) は、埋め込みの情報成分を特定するためのクエリ依存スコアを提供する。
DIMEは、全てのクエリコーパスの埋め込みに対して、優先順位を次元として選択するために、コストのかかるグリッドサーチに依存している。
我々の研究は統計的に定位された基準を提供し、推論時に各クエリに対して最適な次元の集合を直接識別する。
実験では、有効性が同等であることを確認し、推論時に異なるモデルやデータセットに対して平均$\sim50\%の埋め込みサイズを減少させる。
関連論文リスト
- Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection [45.327105807111934]
既存のアプローチは通常、1次元または複数次元のスコアベースの選択に依存する。
本稿では,データ選択時の品質と多様性を両立するOrthogonal Diversity-Aware Selection (ODiS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-21T03:37:31Z) - Towards Size-invariant Salient Object Detection: A Generic Evaluation and Optimization Approach [118.75896764188424]
本稿では,既存の広範に使用されているSalient Object Detectionメトリクスの固有サイズ感度を明らかにするために,新しい視点を示す。
この課題に対処するため、汎用的なサイズ不変評価(SIEva)フレームワークが提案されている。
さらに、サイズ不変の原理に固執する専用最適化フレームワーク(SIOpt)を開発し、幅広いサイズにわたる有能な物体の検出を大幅に強化する。
論文 参考訳(メタデータ) (2025-09-19T04:12:14Z) - From Randomized Response to Randomized Index: Answering Subset Counting Queries with Local Differential Privacy [27.59934932590226]
ローカル微分プライバシ(LDP)は、個々のデータプライバシを保護するための主要なプライバシモデルである。
我々は、値の摂動ではなく、値のインデックスにランダム化を適用する別のアプローチを提案する。
乱数化インデックスのデニビリティに着想を得て,集合値データに対するサブセットカウントクエリに応答するCRIADを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:08:11Z) - Scalable Dynamic Embedding Size Search for Streaming Recommendation [47.69328280479569]
実世界のレコメンデーションシステムは、しばしばストリーミングレコメンデーションシナリオで機能する。
ユーザやアイテムの数は増加を続けており、かなりのストレージリソース消費につながっている。
SCALLと呼ばれるストリーミングレコメンデーション用のLightweight Embeddingsを学び、ユーザ/イテムの埋め込みサイズを適応的に調整できる。
論文 参考訳(メタデータ) (2024-07-22T06:37:24Z) - A Statistical View of Column Subset Selection [47.65143789184956]
大規模データセットから代表変数の小さなサブセットを選択することの問題点を考察する。
提案手法では,(1)元のデータセットからの要約統計データのみを用いてCSSを効率的に実行する方法,(2)欠落データや検閲データの存在下でCSSを実行する方法,(3)仮説テストフレームワークでCSSのサブセットサイズを選択する方法を示す。
論文 参考訳(メタデータ) (2023-07-24T15:42:33Z) - Differentiable Neural Input Search for Recommender Systems [26.88124270897381]
Differentiable Neural Input Search (DNIS) は、より柔軟な空間における混合特徴埋め込み次元を探索する手法である。
DNISはモデルに依存しないため、既存の潜在因子モデルとシームレスに統合して推奨することができる。
論文 参考訳(メタデータ) (2020-06-08T10:43:59Z) - Consistent and Flexible Selectivity Estimation for High-Dimensional Data [23.016360687961193]
本稿では,クエリ依存の断片的線形関数を選択性推定器として学習する深層学習モデルを提案する。
提案手法は,最先端モデルの精度を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-05-20T08:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。