論文の概要: To Case or Not to Case: An Empirical Study in Learned Sparse Retrieval
- arxiv url: http://arxiv.org/abs/2601.17500v1
- Date: Sat, 24 Jan 2026 15:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.892124
- Title: To Case or Not to Case: An Empirical Study in Learned Sparse Retrieval
- Title(参考訳): ケース・アンド・ケース:学習したスパース検索における実証的研究
- Authors: Emmanouil Georgios Lionis, Jia-Huei Ju, Angelos Nalmpantis, Casper Thuis, Sean MacAvaney, Andrew Yates,
- Abstract要約: Learned Sparse Retrieval (LSR)メソッドは、クエリとドキュメントのスパース語彙表現を構築する。
既存のLSRアプローチは、ほとんどケースのないバックボーンモデルに依存している。
ケースドモデルは、ほとんど完全にケースドボキャブラリアイテムを抑圧し、ケースドモデルとして効果的に振る舞う。
- 参考スコア(独自算出の注目度): 25.242514696943616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned Sparse Retrieval (LSR) methods construct sparse lexical representations of queries and documents that can be efficiently searched using inverted indexes. Existing LSR approaches have relied almost exclusively on uncased backbone models, whose vocabularies exclude case-sensitive distinctions, thereby reducing vocabulary mismatch. However, the most recent state-of-the-art language models are only available in cased versions. Despite this shift, the impact of backbone model casing on LSR has not been studied, potentially posing a risk to the viability of the method going forward. To fill this gap, we systematically evaluate paired cased and uncased versions of the same backbone models across multiple datasets to assess their suitability for LSR. Our findings show that LSR models with cased backbone models by default perform substantially worse than their uncased counterparts; however, this gap can be eliminated by pre-processing the text to lowercase. Moreover, our token-level analysis reveals that, under lowercasing, cased models almost entirely suppress cased vocabulary items and behave effectively as uncased models, explaining their restored performance. This result broadens the applicability of recent cased models to the LSR setting and facilitates the integration of stronger backbone architectures into sparse retrieval. The complete code and implementation for this project are available at: https://github.com/lionisakis/Uncased-vs-cased-models-in-LSR
- Abstract(参考訳): Learned Sparse Retrieval (LSR)メソッドは、逆インデックスを用いて効率的に検索できるクエリとドキュメントのスパース語彙表現を構築する。
既存のLSRアプローチは、ほとんどケースのないバックボーンモデルに依存しており、語彙はケースセンシティブな区別を除外し、語彙ミスマッチを減らす。
しかし、最新の最先端の言語モデルは、ケースドバージョンでしか利用できない。
この変化にもかかわらず、バックボーンモデルケーシングがLSRに与える影響は研究されておらず、今後の方法の生存可能性にリスクをもたらす可能性がある。
このギャップを埋めるために、複数のデータセットにまたがる同じバックボーンモデルのケースドモデルとケースドモデルとアンケースバージョンを体系的に評価し、LSRの適合性を評価する。
以上の結果から,ケースバックボーンモデルを用いたLSRモデルでは,非ケースバックボーンモデルよりも格段に低い結果が得られたが,テキストを下位ケースに前処理することで,このギャップを解消できることがわかった。
さらに, トークンレベルの分析により, ケースドモデルでは, ケースド・ボキャブラリ・アイテムがほぼ完全に抑制され, ケースド・モデルとして効果的に動作し, 復元された性能を説明できることがわかった。
これにより、最近のケースドモデルの適用性をLSR設定に拡張し、より強力なバックボーンアーキテクチャのスパース検索への統合を容易にする。
https://github.com/lionisakis/Uncased-vs-cased-models-in-LSR
関連論文リスト
- Bi'an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation [6.549143816134529]
bftextBi'anはバイリンガルベンチマークデータセットと軽量判定モデルを備えた新しいフレームワークである。
データセットは、複数のRAGシナリオにわたる厳密な評価をサポートし、審査モデルは、コンパクトなオープンソースLLMから微調整される。
論文 参考訳(メタデータ) (2025-02-26T15:12:59Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models [25.346800371132645]
Retrieval-augmented Large Language Models (RALMs) は、元の検索自由言語モデル (LMs) を一貫して上回るものではない。
提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。
本稿では,異なる知識ソースから適応的に検索し,予測不能な読み出し誤りを効果的に低減できるトレーニング可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:22:49Z) - LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding [2.0257616108612373]
本稿では,大規模言語モデル拡張によるモデルに依存しないドキュメントレベルの埋め込みフレームワークを提案する。
我々は広く利用されている検索モデルの有効性を大幅に改善することができた。
論文 参考訳(メタデータ) (2024-04-08T19:29:07Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。