論文の概要: BMX: Entropy-weighted Similarity and Semantic-enhanced Lexical Search
- arxiv url: http://arxiv.org/abs/2408.06643v2
- Date: Wed, 14 Aug 2024 06:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:51:37.314974
- Title: BMX: Entropy-weighted Similarity and Semantic-enhanced Lexical Search
- Title(参考訳): BMX:エントロピー重み付き類似性とセマンティック強化語彙探索
- Authors: Xianming Li, Julius Lipp, Aamir Shakir, Rui Huang, Jing Li,
- Abstract要約: BMXは、エントロピー重み付き類似性とセマンティックエンハンスメント技術を組み込んだBM25の新規拡張である。
BMXはBM25を一貫して上回り、PLM/LLMベースの高密度検索を上回っている。
本研究は,古典的語彙探索と現代意味論的アプローチのギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 8.244386008877441
- License:
- Abstract: BM25, a widely-used lexical search algorithm, remains crucial in information retrieval despite the rise of pre-trained and large language models (PLMs/LLMs). However, it neglects query-document similarity and lacks semantic understanding, limiting its performance. We revisit BM25 and introduce BMX, a novel extension of BM25 incorporating entropy-weighted similarity and semantic enhancement techniques. Extensive experiments demonstrate that BMX consistently outperforms traditional BM25 and surpasses PLM/LLM-based dense retrieval in long-context and real-world retrieval benchmarks. This study bridges the gap between classical lexical search and modern semantic approaches, offering a promising direction for future information retrieval research. The reference implementation of BMX can be found in Baguetter, which was created in the context of this work. The code can be found here: https://github.com/mixedbread-ai/baguetter.
- Abstract(参考訳): 広く使われている語彙探索アルゴリズムBM25は、事前訓練された大規模言語モデル(PLMs/LLMs)の台頭にもかかわらず、情報検索において重要な存在である。
しかし、クエリドキュメントの類似性を無視し、セマンティックな理解を欠き、パフォーマンスを制限している。
我々はBM25を再検討し、エントロピー重み付き類似性とセマンティックエンハンスメント技術を組み込んだBM25の新たな拡張であるBMXを導入する。
大規模な実験により、BMXは従来のBM25より一貫して優れており、長いコンテキストと実世界の検索ベンチマークにおいてPLM/LLMベースの高密度検索を上回っていることが示された。
本研究は,従来の語彙探索と現代意味論的アプローチのギャップを埋め,将来的な情報検索研究に期待できる方向を提供する。
BMXのリファレンス実装は、この作業のコンテキストで作成されたBaguetterで見ることができる。
コードは、https://github.com/mixedbread-ai/baguetter.comで参照できる。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Cross-Encoder Rediscovers a Semantic Variant of BM25 [20.670511323837626]
そこで本研究では,MiniLMのクロスエンコーダ(Cross-Encoder)バージョンについて検討し,その関連性や格納場所について検討する。
従来のBM25のセマンティックなバリエーションを解釈可能な方法で採用し、局所的なコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-02-07T04:08:57Z) - Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。
このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。
我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文 参考訳(メタデータ) (2024-12-21T13:19:15Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Machine Translation Decoding beyond Beam Search [43.27883368285612]
ビームサーチは自動回帰機械翻訳モデルの復号化手法である。
我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。
モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
論文 参考訳(メタデータ) (2021-04-12T10:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。