Fugu-MT 論文翻訳(概要): BMX: Entropy-weighted Similarity and Semantic-enhanced Lexical Search

論文の概要: BMX: Entropy-weighted Similarity and Semantic-enhanced Lexical Search

arxiv url: http://arxiv.org/abs/2408.06643v2
Date: Wed, 14 Aug 2024 06:18:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 23:34:26.472032
Title: BMX: Entropy-weighted Similarity and Semantic-enhanced Lexical Search
Title（参考訳）: BMX:エントロピー重み付き類似性とセマンティック強化語彙探索
Authors: Xianming Li, Julius Lipp, Aamir Shakir, Rui Huang, Jing Li,
Abstract要約: BMXは、エントロピー重み付き類似性とセマンティックエンハンスメント技術を組み込んだBM25の新規拡張である。 BMXはBM25を一貫して上回り、PLM/LLMベースの高密度検索を上回っている。本研究は,古典的語彙探索と現代意味論的アプローチのギャップを埋めるものである。
参考スコア（独自算出の注目度）: 8.244386008877441
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: BM25, a widely-used lexical search algorithm, remains crucial in information retrieval despite the rise of pre-trained and large language models (PLMs/LLMs). However, it neglects query-document similarity and lacks semantic understanding, limiting its performance. We revisit BM25 and introduce BMX, a novel extension of BM25 incorporating entropy-weighted similarity and semantic enhancement techniques. Extensive experiments demonstrate that BMX consistently outperforms traditional BM25 and surpasses PLM/LLM-based dense retrieval in long-context and real-world retrieval benchmarks. This study bridges the gap between classical lexical search and modern semantic approaches, offering a promising direction for future information retrieval research. The reference implementation of BMX can be found in Baguetter, which was created in the context of this work. The code can be found here: https://github.com/mixedbread-ai/baguetter.
Abstract（参考訳）: 広く使われている語彙探索アルゴリズムBM25は、事前訓練された大規模言語モデル(PLMs/LLMs)の台頭にもかかわらず、情報検索において重要な存在である。しかし、クエリドキュメントの類似性を無視し、セマンティックな理解を欠き、パフォーマンスを制限している。我々はBM25を再検討し、エントロピー重み付き類似性とセマンティックエンハンスメント技術を組み込んだBM25の新たな拡張であるBMXを導入する。大規模な実験により、BMXは従来のBM25より一貫して優れており、長いコンテキストと実世界の検索ベンチマークにおいてPLM/LLMベースの高密度検索を上回っていることが示された。本研究は,従来の語彙探索と現代意味論的アプローチのギャップを埋め,将来的な情報検索研究に期待できる方向を提供する。 BMXのリファレンス実装は、この作業のコンテキストで作成されたBaguetterで見ることができる。コードは、https://github.com/mixedbread-ai/baguetter.comで参照できる。

関連論文リスト

Query Attribute Modeling: Improving search relevance with Semantic Search and Meta Data Filtering [0.0]
本研究では,オープンテキストクエリを構造化メタデータタグやセマンティック要素に分解することで,検索精度と関連性を高めるハイブリッドフレームワークであるクエリ属性モデリング(QAM)を紹介する。 QAMは、自由形式のテキストクエリからメタデータフィルタを自動的に抽出し、ノイズを低減し、関連する項目の集中検索を可能にすることで、従来の検索制限に対処する。
論文参考訳（メタデータ） (2025-08-06T17:47:00Z)
InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking [3.1125398490785217]
InsertRankはLLMベースのリランカで、リランク中のBM25スコアなどの語彙信号を活用して、検索性能をさらに向上する。 Deepseek-R1では、InsertRankはBRIGHTベンチマークで37.5点、R2MEDベンチマークで51.1点を獲得し、以前の手法を上回りました。
論文参考訳（メタデータ） (2025-06-17T01:04:45Z)
Assessing the Performance Gap Between Lexical and Semantic Models for Information Retrieval With Formulaic Legal Language [1.3499500088995462]
本研究は,欧州連合司法裁判所(CJEU)の判決から法律又は段落を回収する業務について検討する。実験の結果,BM25は7つのパフォーマンス指標のうち4つにおいて,市販の高密度モデルを上回る強力なベースラインであることが判明した。ドメイン固有のデータに対する厳密なモデルを微調整することでパフォーマンスが向上し、ほとんどのメトリクスでBM25を上回った。
論文参考訳（メタデータ） (2025-06-15T15:53:38Z)
From Retrieval to Generation: Comparing Different Approaches [15.31883349259767]
我々は,知識集約型タスクに対する検索ベース,生成ベース,ハイブリッドモデルの評価を行った。我々は、高密度レトリバー、特にDPRは、NQ上でトップ1の精度が50.17%のODQAにおいて高い性能を発揮することを示す。また、WikiText-103を用いて言語モデリングタスクを解析し、BM25のような検索に基づくアプローチは、生成的手法やハイブリッド手法に比べて難易度が低いことを示す。
論文参考訳（メタデータ） (2025-02-27T16:29:14Z)
Language Model Re-rankers are Fooled by Lexical Similarities [48.10108272874251]
言語モデル(LM)リランカは、検索強化世代(RAG)の検索結果を洗練するために使用される。 NQ, LitQA2, DRUIDデータセット上で, 6種類のLM再ランカを評価した。
論文参考訳（メタデータ） (2025-02-24T10:37:13Z)
Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER) DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Cross-Encoder Rediscovers a Semantic Variant of BM25 [20.670511323837626]
そこで本研究では,MiniLMのクロスエンコーダ(Cross-Encoder)バージョンについて検討し,その関連性や格納場所について検討する。従来のBM25のセマンティックなバリエーションを解釈可能な方法で採用し、局所的なコンポーネントを特徴とする。
論文参考訳（メタデータ） (2025-02-07T04:08:57Z)
Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文参考訳（メタデータ） (2024-12-21T13:19:15Z)
Mistral-SPLADE: LLMs for better Learned Sparse Retrieval [7.652738829153342]
本稿では,意味的キーワード拡張学習にデコーダのみを用いたモデルを提案する。我々はMistralをバックボーンとして,SPLADEに似たLearned Sparse Retrieverを開発した。提案実験は,デコーダのみに基づくスパース検索モデル (LLM) が既存のLSRシステムの性能を上回るという仮説を支持する。
論文参考訳（メタデータ） (2024-08-20T18:21:54Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。 BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。 LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文参考訳（メタデータ） (2023-07-31T15:44:26Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。 BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文参考訳（メタデータ） (2023-05-10T16:40:52Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文参考訳（メタデータ） (2022-10-13T15:18:04Z)
UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文参考訳（メタデータ） (2022-05-23T11:01:59Z)
On Single and Multiple Representations in Dense Passage Retrieval [30.303705563808386]
単一の表現と複数の表現の2つの密度の高い検索ファミリが明らかになってきた。本稿では,各手法が互いにw.r.t,w.r.t,BM25ベースラインをそれぞれ実行している状況について,それらの比較効果を直接研究する。また、複数の表現は、BM25や定義クエリにとって最も難しいクエリに対して、単一の表現よりも改善されていることを示す。
論文参考訳（メタデータ） (2021-08-13T15:01:53Z)
Machine Translation Decoding beyond Beam Search [43.27883368285612]
ビームサーチは自動回帰機械翻訳モデルの復号化手法である。我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
論文参考訳（メタデータ） (2021-04-12T10:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。