論文の概要: Comparing Lexical and Semantic Vector Search Methods When Classifying Medical Documents
- arxiv url: http://arxiv.org/abs/2505.11582v2
- Date: Tue, 03 Jun 2025 09:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.589855
- Title: Comparing Lexical and Semantic Vector Search Methods When Classifying Medical Documents
- Title(参考訳): 医学文書分類における語彙ベクトル探索法と意味ベクトル探索法の比較
- Authors: Lee Harris,
- Abstract要約: 我々の仕事は、その内容に応じて厳格に構造化された医療文書を分類することであった。
その結果,市販のセマンティックベクターサーチでは,語彙ベクトルサーチモデルの作成よりも予測精度が若干悪いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classification is a common AI problem, and vector search is a typical solution. This transforms a given body of text into a numerical representation, known as an embedding, and modern improvements to vector search focus on optimising speed and predictive accuracy. This is often achieved through neural methods that aim to learn language semantics. However, our results suggest that these are not always the best solution. Our task was to classify rigidly-structured medical documents according to their content, and we found that using off-the-shelf semantic vector search produced slightly worse predictive accuracy than creating a bespoke lexical vector search model, and that it required significantly more time to execute. These findings suggest that traditional methods deserve to be contenders in the information retrieval toolkit, despite the prevalence and success of neural models.
- Abstract(参考訳): 分類は一般的なAI問題であり、ベクトル探索は典型的な解である。
これは、与えられたテキストの本体を埋め込みとして知られる数値表現に変換し、速度と予測精度を最適化するベクトル探索への近代的な改善である。
これは言語セマンティクスの学習を目的としたニューラルメソッドによって達成されることが多い。
しかし、この結果は必ずしも最良の解決策ではないことを示唆している。
本研究の目的は, 厳密に構造化された医用文書を内容に応じて分類することであり, 市販のセマンティックベクターサーチを用いることで, ベクターサーチモデルの作成よりも予測精度がわずかに悪くなり, 実行に要する時間が大幅に増加した。
これらの結果は,ニューラルモデルの普及と成功にもかかわらず,従来の手法は情報検索ツールキットの競争者にふさわしいことを示唆している。
関連論文リスト
- SoftMatcha: A Soft and Fast Pattern Matcher for Billion-Scale Corpus Searches [5.80278230280824]
本稿では,単語埋め込みと曲面レベルのマッチングを緩和することにより,意味的かつ効率的なパターンマッチングを実現する新しいアルゴリズムを提案する。
提案手法は,数十億のコーパスを1秒以内で探索できることを実証した。
論文 参考訳(メタデータ) (2025-03-05T17:53:11Z) - VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and
Optimized Search [1.0411820336052784]
本稿では、高度なアルゴリズム、埋め込み、インデックス化技術を活用して洗練された検索を行うVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchがベースラインのメトリクスを上回っている。
論文 参考訳(メタデータ) (2024-09-25T21:58:08Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Dense Sparse Retrieval: Using Sparse Language Models for Inference
Efficient Dense Retrieval [37.22592489907125]
本研究では,高密度検索にスパース言語モデルを用いて推論効率を向上する方法について検討する。
スパース言語モデルは、ほとんど精度を落とさず、推論速度を最大4.3倍改善した直接置換として使用することができる。
論文 参考訳(メタデータ) (2023-03-31T20:21:32Z) - Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。
本稿では,正規化コントラスト学習という新たな正規化手法を提案する。
文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文 参考訳(メタデータ) (2022-09-27T08:25:19Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Data-Driven Regular Expressions Evolution for Medical Text
Classification Using Genetic Programming [0.0]
本研究では,正規表現を進化させるために,遺伝的プログラミング(GP)アプローチを用いた新しい正規表現に基づくテキスト分類手法を提案する。
本手法は,オンライン医療提供者からのリアルタイム医療用テキスト調査を用いて評価し,有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-12-04T03:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。