Fugu-MT 論文翻訳(概要): Thistle: A Vector Database in Rust

論文の概要: Thistle: A Vector Database in Rust

arxiv url: http://arxiv.org/abs/2303.16780v1
Date: Sat, 25 Mar 2023 23:56:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 14:13:15.034547
Title: Thistle: A Vector Database in Rust
Title（参考訳）: Thistle: Rustのベクトルデータベース
Authors: Brad Windsor, Kevin Choi
Abstract要約: Thistleは、検索クエリの応答に使用される潜在知識のドメインへのエントリである。我々は、いくつかのよく知られたアルゴリズムでThistleを実装し、MS MARCOデータセット上でベンチマーク結果をベンチマークする。
参考スコア（独自算出の注目度）: 1.8402019107354282
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Thistle, a fully functional vector database. Thistle is an entry into the domain of latent knowledge use in answering search queries, an ongoing research topic at both start-ups and search engine companies. We implement Thistle with several well-known algorithms, and benchmark results on the MS MARCO dataset. Results help clarify the latent knowledge domain as well as the growing Rust ML ecosystem.
Abstract（参考訳）: 完全関数型ベクトルデータベースであるThistleを提案する。 Thistleは、スタートアップと検索エンジン企業の両方で進行中の研究トピックである検索クェリに答えるために使われる潜伏した知識の分野への参入である。我々は,いくつかのよく知られたアルゴリズムを用いて thistle を実装し,ms marco データセット上でベンチマーク結果を得た。結果として、潜在知識ドメインと成長を続けるrust mlエコシステムが明確になる。

関連論文リスト

How good are LLMs at Retrieving Documents in a Specific Domain? [3.282961543904818]
本稿では,ドメイン固有の評価データセットをキュレートして検索システムの性能を解析する自動手法を提案する。本研究では,Large Language Models (LLMs) を用いたRAG(Retrieval of Augmented Generation)を組み込んで,自然言語クエリを用いた環境領域データの高品質な検索を行う。
論文参考訳（メタデータ） (2025-08-25T19:47:21Z)
Beyond Nearest Neighbors: Semantic Compression and Graph-Augmented Retrieval for Enhanced Vector Search [2.377892000761193]
本稿では,クエリの周囲のより広いセマンティック構造をキャプチャする,コンパクトで代表的なベクトル群を選択することを目的としたセマンティック圧縮という新しい検索パラダイムを提案する。このアイデアを運用するために,ベクトル空間上に意味グラフ(kNNや知識ベースリンクなど)をオーバーレイするグラフ拡張ベクター検索を提案する。本研究は,ハイブリットインデックス,多様性を考慮したクエリ,構造化セマンティック検索を重視した意味中心ベクトル探索システムの基礎を概説する。
論文参考訳（メタデータ） (2025-07-25T23:35:11Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。我々は近年,分類学を構築し,最も顕著な論文をレビューしている。我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文参考訳（メタデータ） (2024-08-13T07:27:02Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
The Impacts of Data, Ordering, and Intrinsic Dimensionality on Recall in Hierarchical Navigable Small Worlds [0.09208007322096533]
調査は、HNSWがデータセットのスペクトルにわたって有効であることに焦点を当てている。我々は、KN(K Nearest Neighbours)探索と比較して、近似HNSW探索のリコールが、ベクトル空間の固有次元と結びついていることを発見した。一般的なベンチマークデータセットをKNNの代わりにHNSWで実行することで、いくつかのモデルではランキングを最大3ポジションシフトすることができる。
論文参考訳（メタデータ） (2024-05-28T04:16:43Z)
Redefining Information Retrieval of Structured Database via Large Language Models [10.117751707641416]
本稿では,ChatLRと呼ばれる新しい検索拡張フレームワークを提案する。主に、Large Language Models (LLM) の強力な意味理解能力を用いて、正確かつ簡潔な情報検索を実現する。実験の結果、ChatLRがユーザクエリに対処する効果を示し、全体の情報検索精度は98.8%を超えた。
論文参考訳（メタデータ） (2024-05-09T02:37:53Z)
STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文参考訳（メタデータ） (2024-04-19T22:54:54Z)
A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge [4.579314354865921]
ベクトルデータベースの背後にある近傍の探索問題については,長年にわたって研究されてきた。本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
論文参考訳（メタデータ） (2023-10-18T04:31:06Z)
MORE: A Metric Learning Based Framework for Open-domain Relation Extraction [25.149590577718996]
オープンリレーション抽出(OpenRE)は、オープンドメインコーパスからリレーションスキームを抽出するタスクである。我々はMORE(Metric Learning-based Open Relation extract)という新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-01T07:51:20Z)
MMOCR: A Comprehensive Toolbox for Text Detection, Recognition and Understanding [70.16678926775475]
MMOCRは、テキストの検出と認識のためのオープンソースのツールボックスである。それは14の最先端のアルゴリズムを実装しており、これは私たちが現在知っているすべてのオープンソースのOCRプロジェクトよりも多い。
論文参考訳（メタデータ） (2021-08-14T14:10:23Z)
Deep ensembles based on Stochastic Activation Selection for Polyp Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文参考訳（メタデータ） (2021-04-02T02:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。