論文の概要: Separating Semantic Expansion from Linear Geometry for PubMed-Scale Vector Search
- arxiv url: http://arxiv.org/abs/2601.05268v1
- Date: Fri, 14 Nov 2025 17:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.539572
- Title: Separating Semantic Expansion from Linear Geometry for PubMed-Scale Vector Search
- Title(参考訳): PubMed-Scale Vector Searchのための線形幾何学からのセマンティック展開の分離
- Authors: Rob Koopman,
- Abstract要約: 本稿では,意味論的解釈を計量幾何学から分離する尺度検索フレームワークについて述べる。
大きな言語モデルは、自然言語クエリを簡潔なバイオメディカルフレーズに拡張する。
Retrieval は固定的で平均自由で、ほぼ等方的な埋め込み空間で機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a PubMed scale retrieval framework that separates semantic interpretation from metric geometry. A large language model expands a natural language query into concise biomedical phrases; retrieval then operates in a fixed, mean free, approximately isotropic embedding space. Each document and query vector is formed as a weighted mean of token embeddings, projected onto the complement of nuisance axes and compressed by a Johnson Lindenstrauss transform. No parameters are trained. The system retrieves coherent biomedical clusters across the full MEDLINE corpus (about 40 million records) using exact cosine search on 256 dimensional int8 vectors. Evaluation is purely geometric: head cosine, compactness, centroid closure, and isotropy are compared with random vector baselines. Recall is not defined, since the language-model expansion specifies the effective target set.
- Abstract(参考訳): 本稿では,意味論的解釈を計量幾何学から分離するPubMedスケール検索フレームワークについて述べる。
大きな言語モデルは、自然言語クエリを簡潔なバイオメディカルなフレーズに拡張し、検索は固定的で平均自由で、ほぼ等方的な埋め込み空間で動作する。
各文書およびクエリベクトルは、トークン埋め込みの重み付き平均として形成され、ニュアンス軸の補体に投影され、ジョンソンリンデンシュトラウス変換によって圧縮される。
パラメータはトレーニングされない。
このシステムは、256次元のint8ベクトル上の正確なコサイン探索を用いて、完全なMEDLINEコーパス(約4000万レコード)にわたるコヒーレントなバイオメディカルクラスタを検索する。
頭部コサイン、コンパクト性、セントロイド閉包、等方性はランダムなベクトルベースラインと比較される。
言語モデル拡張は効果的なターゲットセットを指定するため、リコールは定義されていない。
関連論文リスト
- Infinity Search: Approximate Vector Search with Projections on q-Metric Spaces [94.12116458306916]
我々は、$q$の測度空間において、計量木は三角形の不等式のより強いバージョンを活用でき、正確な探索の比較を減らすことができることを示した。
任意の異方性測度を持つデータセットを$q$-metric空間に埋め込む新しい射影法を提案する。
論文 参考訳(メタデータ) (2025-06-06T22:09:44Z) - Harnessing the Universal Geometry of Embeddings [8.566825612032359]
本稿では,テキスト埋め込みを1つのベクトル空間から別のベクトル空間に変換する最初の手法を提案する。
我々の翻訳は、異なるアーキテクチャ、パラメータ数、トレーニングデータセットを持つモデルペア間で高いコサイン類似性を実現する。
論文 参考訳(メタデータ) (2025-05-18T20:37:07Z) - Every Component Counts: Rethinking the Measure of Success for Medical Semantic Segmentation in Multi-Instance Segmentation Tasks [60.80828925396154]
本稿では,新しいセマンティックセグメンテーション評価プロトコルであるConnected-Component (CC)-Metricsを提案する。
本研究は,全体PET/CTにおけるセマンティックセグメンテーションの一般的な医療シナリオにおいて,この設定を動機付けている。
既存のセマンティックセグメンテーションのメトリクスが、より大きな接続コンポーネントに対するバイアスにどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-10-24T12:26:05Z) - Predicting drug-gene relations via analogy tasks with word embeddings [3.4437537926107664]
BioConceptVecは、生物学に適した埋め込みの具体例である。
そこで本研究では,BioConceptVecの埋め込みには薬物遺伝子関連情報が含まれており,特定の薬物から標的遺伝子を予測することができることを示す。
また、過去の既知の関係から派生したベクトルが、データセットの未知の将来の関係を年々予測できることを示す。
論文 参考訳(メタデータ) (2024-06-03T04:36:38Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Spatial Transformer Point Convolution [47.993153127099895]
点雲上での異方性畳み込みフィルタを実現するための空間変圧器点畳み込み法を提案する。
暗黙的な幾何学的構造を捉え表現するために,特に空間方向辞書を導入する。
変換空間では、標準画像のような畳み込みを利用して異方性フィルタリングを生成することができる。
論文 参考訳(メタデータ) (2020-09-03T03:12:25Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。