論文の概要: Understanding Wacky Weights: A Dissection of SPLADE's Learned Term Importance
- arxiv url: http://arxiv.org/abs/2605.19628v1
- Date: Tue, 19 May 2026 10:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.271098
- Title: Understanding Wacky Weights: A Dissection of SPLADE's Learned Term Importance
- Title(参考訳): ワッキーウェイトを理解する:SPLADEの学習的重要性の解剖
- Authors: Gregory Polyakov, Harrisen Scells, Carsten Eickhoff,
- Abstract要約: 我々はSPLADE-v2を再現し、SPLADEファミリーのモデル間での厄介な重量を調査した。
拡張項の語彙的有用性に基づいて、ウェイクネスを形式的に定義する。
さまざまな損失関数、データセット、バックボーントランスフォーマーでトレーニングして、不安の原因を分離します。
- 参考スコア(独自算出の注目度): 27.65279069860294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned sparse retrieval models such as SPLADE combine the effectiveness of neural architectures with the efficiency of inverted indices. As these models assign weights to terms from a fixed vocabulary, interpretability is often touted as a major benefit of these models. However, the emergence of wacky weights, i.e., expansion terms that appear semantically unrelated to the input, limits interpretability. While prior research has anecdotally observed this phenomenon, there is a lack of systematic understanding regarding their origins, prevalence, and contribution to retrieval effectiveness. In this paper, we reproduce SPLADE-v2 to systematically investigate wacky weights across the SPLADE family of models. We present a comprehensive dissection of wacky weights, providing a formal definition of wackiness based on the lexical utility of expansion terms. Furthermore, we introduce a novel measure to compare the prevalence of these tokens across models with varying vocabularies and sparsity levels. Beyond reproducing the original SPLADE-v2, we train it with various loss functions, datasets, and backbone transformers to isolate the factors contributing to wackiness. Our results show that larger vocabularies are associated with a higher prevalence of wacky tokens, while stricter sparsity regularizers are associated with lower prevalence. Finally, we find that wacky weights are used primarily for in-domain effectiveness rather than out-of-domain generalization.
- Abstract(参考訳): SPLADEのような学習されたスパース検索モデルは、ニューラルネットワークの有効性と逆インデックスの効率を組み合わせている。
これらのモデルは固定語彙の項に重みを割り当てるので、解釈可能性はしばしばこれらのモデルの大きな利点として評価される。
しかし、ワッキーウェイト、すなわち、入力と意味的に無関係に見える拡張項の出現は、解釈可能性を制限する。
以前の研究では、この現象が偶然に観測されているが、その起源、頻度、そして検索の有効性への貢献について体系的な理解が欠如している。
本稿では,SPLADE-v2を再現し,SPLADE系のウェイトを系統的に解析する。
本稿では, ワッキーウェイトを包括的に解剖し, 拡張項の語彙的有用性に基づいて, ワッキーウェイトを公式に定義する。
さらに,これらのトークンの出現頻度を,語彙や空間レベルの異なるモデルで比較する新たな尺度を提案する。
オリジナルのSPLADE-v2を再現する以外に、さまざまな損失関数、データセット、バックボーントランスフォーマーでトレーニングして、難易度に寄与する要因を分離します。
以上の結果から,より大きな語彙はワッキートークンの出現頻度が高いのに対して,より厳密なスパシティ正規化器は出現頻度が低いことが示唆された。
最後に、ワッキーウェイトは主にドメイン外の一般化よりもドメイン内の有効性に使用されることを発見した。
関連論文リスト
- Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - A Study on FGSM Adversarial Training for Neural Retrieval [3.2634122554914]
ニューラル検索モデルは、項ベースの手法と比較して、ここ数年で顕著な効果を得た。
しかし、これらのモデルは、タイプミスや配布シフトに直面したり、悪意のある攻撃に対して脆弱である可能性がある。
我々は,FGSM(Fast Gradient Sign Method)という,最も単純な逆行訓練手法の1つが,第1段階のローダの堅牢性と有効性を向上させることができることを示した。
論文 参考訳(メタデータ) (2023-01-25T13:28:54Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Lexical Generalization Improves with Larger Models and Longer Training [42.024050065980845]
本稿では,自然言語推論,パラフレーズ検出,読解理解における語彙重なりの活用について分析する。
より大型のモデルでは、語彙的な重複を採用することへの感受性がはるかに低いことが分かりました。
論文 参考訳(メタデータ) (2022-10-23T09:20:11Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Is Importance Weighting Incompatible with Interpolating Classifiers? [13.449501940517699]
重み付けは,ロジスティック損失やクロスエントロピー損失などの指数関数的な損失によって失敗することを示す。
治療として,重み付けされた損失が重み付けの効果を回復することを示す。
驚くべきことに、我々の理論は、古典的不偏重を指数化することによって得られる重みを用いることで、性能が向上することを示している。
論文 参考訳(メタデータ) (2021-12-24T08:06:57Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。