論文の概要: Correcting Mean Bias in Text Embeddings: A Refined Renormalization with Training-Free Improvements on MMTEB
- arxiv url: http://arxiv.org/abs/2511.11041v1
- Date: Fri, 14 Nov 2025 07:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.485246
- Title: Correcting Mean Bias in Text Embeddings: A Refined Renormalization with Training-Free Improvements on MMTEB
- Title(参考訳): テキスト埋め込みにおける平均バイアスの補正:MMTEBのトレーニング不要改善による再正規化
- Authors: Xingyu Ren, Youran Sun, Haoyu Liang,
- Abstract要約: そこで我々は,Renormalizationと呼ばれる,プラグアンドプレイでトレーニング不要で軽量なソリューションを提案する。
再正規化は既存のモデルの性能を継続的に統計的に向上させることを示す。
- 参考スコア(独自算出の注目度): 5.315831681082424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We find that current text embedding models produce outputs with a consistent bias, i.e., each embedding vector $e$ can be decomposed as $\tilde{e} + μ$, where $μ$ is almost identical across all sentences. We propose a plug-and-play, training-free and lightweight solution called Renormalization. Through extensive experiments, we show that renormalization consistently and statistically significantly improves the performance of existing models on the Massive Multilingual Text Embedding Benchmark (MMTEB). In particular, across 38 models, renormalization improves performance by 9.7 $σ$ on retrieval tasks, 3.1 $σ$ on classification tasks, and 0.8 $σ$ on other types of tasks. Renormalization has two variants: directly subtracting $μ$ from $e$, or subtracting the projection of $e$ onto $μ$. We theoretically predict that the latter performs better, and our experiments confirm this prediction.
- Abstract(参考訳): すなわち、各埋め込みベクトル $e$ は $\tilde{e} + μ$ と分解でき、$μ$ はすべての文でほぼ同一である。
そこで我々は,Renormalizationと呼ばれる,プラグアンドプレイでトレーニング不要で軽量なソリューションを提案する。
広範にわたる実験により、再正規化は、MMTEB(Massive Multilingual Text Embedding Benchmark)における既存のモデルの性能を一貫して統計的に向上させることを示した。
特に38のモデルにおいて、再正規化は検索タスクで9.7$σ$、分類タスクで3.1$σ$、その他のタスクで0.8$σ$のパフォーマンスを改善する。
再正規化には2つの変種がある:$e$から$μ$を直接減算するか、$e$から$μ$への射影を減算する。
理論的には後者の方が優れていると予測し、この予測を実験で確認する。
関連論文リスト
- DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions
with "Spurious" Correlations [44.99833362998488]
テスト時のデータ分散の変化は、予測モデルのパフォーマンスに有害な影響を及ぼす可能性がある。
本研究では,未ラベルサンプルに適用したEMを用いて,共同分布の$p(y, z)$の変化に適応するテストタイムラベルシフト補正を提案する。
論文 参考訳(メタデータ) (2022-11-28T18:52:33Z) - The Projected Covariance Measure for assumption-lean variable significance testing [3.8936058127056357]
単純だが一般的なアプローチは、線形モデルを指定し、次に$X$の回帰係数が 0 でないかどうかをテストすることである。
条件付き平均独立性のモデルフリーなnullをテストする問題、すなわち条件付き平均の$Y$$$X$と$Z$は$X$に依存しない。
本稿では,加法モデルやランダムフォレストなど,柔軟な非パラメトリックあるいは機械学習手法を活用可能な,シンプルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-03T17:55:50Z) - Ising Model Selection Using $\ell_{1}$-Regularized Linear Regression [13.14903445595385]
モデルの不特定にもかかわらず、$ell_1$-regularized linear regression(ell_1$-LinR)推定器は、$N$変数でIsingモデルのグラフ構造を復元することに成功した。
また,$ell_1$-LinR推定器の非漸近性能を適度な$M$と$N$で正確に予測する計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2021-02-08T03:45:10Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。