論文の概要: SPELUNKER: Item Similarity Search Using Large Language Models and Custom K-Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2509.21323v1
- Date: Wed, 27 Aug 2025 09:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.028983
- Title: SPELUNKER: Item Similarity Search Using Large Language Models and Custom K-Nearest Neighbors
- Title(参考訳): SPELUNKER:大規模言語モデルとカスタムK-Nearest隣人を用いた項目類似検索
- Authors: Ana Rodrigues, João Mata, Rui Rego,
- Abstract要約: 本稿では,Large Language Model (LLM) と独自のK-Nearest Neighbors (KNN) アルゴリズムを組み合わせた,直感的な項目類似検索のためのハイブリッドシステムを提案する。
評価は,500のワインレビューのデータセットを用いて行われ,システムの有効性を実証する。
- 参考スコア(独自算出の注目度): 0.17417515112260243
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a hybrid system for intuitive item similarity search that combines a Large Language Model (LLM) with a custom K-Nearest Neighbors (KNN) algorithm. Unlike black-box dense vector systems, this architecture provides superior interpretability by first using an LLM to convert natural language queries into structured, attribute-based searches. This structured query then serves as input to a custom KNN algorithm with a BallTree search strategy, which uses a heterogeneous distance metric to preserve distinct data types. Our evaluation, conducted on a dataset of 500 wine reviews, demonstrates the system's effectiveness. The LLM achieved an F1-score of 0.9779 in information extraction, while also demonstrating high fidelity with a Jaro string similarity of 0.9321. When we augmented the KNN algorithm with LLM-based re-ranking, we observed a statistically significant improvement in recall (p=0.013), indicating the LLM's ability to identify and promote relevant items that align with nuanced user intent. This approach effectively bridges the gap between human language and machine-understandable item representations, offering a transparent and nuanced search capability.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) と独自のK-Nearest Neighbors (KNN) アルゴリズムを組み合わせた,直感的な項目類似検索のためのハイブリッドシステムを提案する。
ブラックボックスの高密度ベクトルシステムとは異なり、このアーキテクチャはLLMを用いて自然言語クエリを構造化された属性ベースの検索に変換することにより、優れた解釈性を提供する。
この構造化クエリは、BallTree検索戦略によるカスタムKNNアルゴリズムの入力として機能し、異種距離メートル法を用いて異なるデータ型を保存する。
評価は,500のワインレビューのデータセットを用いて行われ,システムの有効性を実証する。
LLMは情報抽出においてF1スコアの0.9779を達成し、ヤロの弦の類似度は0.9321である。
LLMをベースとしたKNNアルゴリズムを改良すると、リコールの統計的に有意な改善(p=0.013)が見られた。
このアプローチは、人間の言語と機械で理解可能なアイテム表現のギャップを効果的に埋め、透明でニュアンスのある検索機能を提供する。
関連論文リスト
- Hint-Augmented Re-ranking: Efficient Product Search using LLM-Based Query Decomposition [20.966359103135762]
LLMは,eコマースクエリにおいて最下位の意図を明らかにすることができることを示す。
提案手法では,クエリを検索と同時に生成した属性値ヒントに分解する。
本手法はMAPにおける検索効率を10.9ポイント改善し,ベースライン上のMRRにおいて5.9ポイントのランク付けを行う。
論文 参考訳(メタデータ) (2025-11-17T23:53:25Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Nearest Neighbor Zero-Shot Inference [68.56747574377215]
kNN-Promptは、言語モデル(LM)を用いたゼロショット推論のためのk-nearest neighbor (kNN)検索拡張手法である。
ファジィ動詞化器は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクのスパースkNN分布を利用する。
実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。
論文 参考訳(メタデータ) (2022-05-27T07:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。