論文の概要: Semantic Search for Information Retrieval
- arxiv url: http://arxiv.org/abs/2508.17694v1
- Date: Mon, 25 Aug 2025 06:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.654882
- Title: Semantic Search for Information Retrieval
- Title(参考訳): 情報検索のための意味探索
- Authors: Kayla Farivar,
- Abstract要約: 本調査ではBM25ベースラインの概要を概説し,近代的セマンティックレトリバーのアーキテクチャについて論じる。
我々は、高密度バイエンコーダ(DPR)、遅延相互作用モデル(ColBERT)、神経スパース検索(SPLADE)を導入する。
我々は、一般的な評価戦術、課題の押し付け、今後の方向性の提案で締めくくります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information retrieval systems have progressed notably from lexical techniques such as BM25 and TF-IDF to modern semantic retrievers. This survey provides a brief overview of the BM25 baseline, then discusses the architecture of modern state-of-the-art semantic retrievers. Advancing from BERT, we introduce dense bi-encoders (DPR), late-interaction models (ColBERT), and neural sparse retrieval (SPLADE). Finally, we examine MonoT5, a cross-encoder model. We conclude with common evaluation tactics, pressing challenges, and propositions for future directions.
- Abstract(参考訳): 情報検索システムはBM25やTF-IDFといった語彙的手法から現代のセマンティックレトリバーまで顕著に進歩している。
この調査ではBM25ベースラインの概要を概説し、近代的最先端セマンティックレトリバーのアーキテクチャについて論じる。
BERT は高密度バイエンコーダ (DPR) と遅延相互作用モデル (ColBERT) とニューラルスパース検索 (SPLADE) を導入している。
最後に、クロスエンコーダモデルであるMonoT5について検討する。
我々は、一般的な評価戦術、課題の押し付け、今後の方向性の提案で締めくくります。
関連論文リスト
- Dense Passage Retrieval in Conversational Search [0.0]
本稿では,2つのエンコーダを用いて,リアルタイムに効率的にインデックス化およびクラスタ化が可能なコンテキスト埋め込みを生成する,高密度検索と呼ばれる新しい手法を提案する。
GPT2QR+DPRと呼ばれるエンドツーエンドの会話検索システムを提案する。
本研究は,会話検索におけるニューラルベース検索手法の研究の進展に寄与し,会話検索システムにおける検索精度向上における高密度検索の可能性を強調した。
論文 参考訳(メタデータ) (2025-03-21T19:39:31Z) - Cross-Encoder Rediscovers a Semantic Variant of BM25 [20.670511323837626]
そこで本研究では,MiniLMのクロスエンコーダ(Cross-Encoder)バージョンについて検討し,その関連性や格納場所について検討する。
従来のBM25のセマンティックなバリエーションを解釈可能な方法で採用し、局所的なコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-02-07T04:08:57Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Task-Aware Specialization for Efficient and Robust Dense Retrieval for
Open-Domain Question Answering [85.08146789409354]
我々は高密度検索のための新しいアーキテクチャであるタスクアウェアドメイン(TASER)を提案する。
TASERは単一のエンコーダで共有ブロックと特殊ブロックをインターリーブすることでパラメータ共有を可能にする。
実験の結果,TASERの精度はBM25を上回り,パラメータの約60%を2エンコーダ高密度検索器として用いることができた。
論文 参考訳(メタデータ) (2022-10-11T05:33:25Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - UTSA NLP at SemEval-2022 Task 4: An Exploration of Simple Ensembles of
Transformers, Convolutional, and Recurrent Neural Networks [12.6970199179668]
この原稿は、UTSA SemEval-2022 Task 4によって開発されたシステムについて記述している。
提案手法では,RoBERTa,畳み込みニューラルネットワーク,双方向長短期記憶ネットワークなど,いくつかのディープラーニングアーキテクチャの利用について検討する。
全体として、いくつかのアンサンブルモデルを実験した結果、5つのRoBERTaモデルの単純な組み合わせは、開発データセットで.6441、最終テストデータセットで.5745のFスコアを達成した。
論文 参考訳(メタデータ) (2022-03-28T17:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。