論文の概要: Trove: A Flexible Toolkit for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2511.01857v1
- Date: Mon, 03 Nov 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.385161
- Title: Trove: A Flexible Toolkit for Dense Retrieval
- Title(参考訳): Trove: Dense Retrieval用のフレキシブルなツールキット
- Authors: Reza Esfandiarpoor, Max Zuo, Stephen H. Bach,
- Abstract要約: Troveは、柔軟性やスピードを犠牲にすることなく、研究実験を単純化する、使いやすい検索ツールキットである。
数行のコードだけで,検索データセットのロードと処理をオンザフライで行う,効率的なデータ管理機能を導入します。
Troveのデータ管理機能はメモリ消費を2.6倍に削減する。
- 参考スコア(独自算出の注目度): 11.713816081391021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Trove, an easy-to-use open-source retrieval toolkit that simplifies research experiments without sacrificing flexibility or speed. For the first time, we introduce efficient data management features that load and process (filter, select, transform, and combine) retrieval datasets on the fly, with just a few lines of code. This gives users the flexibility to easily experiment with different dataset configurations without the need to compute and store multiple copies of large datasets. Trove is highly customizable: in addition to many built-in options, it allows users to freely modify existing components or replace them entirely with user-defined objects. It also provides a low-code and unified pipeline for evaluation and hard negative mining, which supports multi-node execution without any code changes. Trove's data management features reduce memory consumption by a factor of 2.6. Moreover, Trove's easy-to-use inference pipeline incurs no overhead, and inference times decrease linearly with the number of available nodes. Most importantly, we demonstrate how Trove simplifies retrieval experiments and allows for arbitrary customizations, thus facilitating exploratory research.
- Abstract(参考訳): 柔軟性や速度を犠牲にすることなく、研究実験を簡略化するオープンソース検索ツールキットであるTroveを紹介する。
初めて、数行のコードで検索データセットのロードと処理(フィルタ、選択、変換、結合)を行う効率的なデータ管理機能を導入しました。
これによってユーザは、大規模なデータセットの複数のコピーを計算して保存する必要なく、さまざまなデータセット構成を簡単に試すことができる。
多数のビルトインオプションに加えて、ユーザーは既存のコンポーネントを自由に変更したり、完全にユーザ定義のオブジェクトに置き換えることができる。
また、コード変更なしにマルチノード実行をサポートする、評価とハードネガティブマイニングのための低コードで統一されたパイプラインも提供する。
Troveのデータ管理機能はメモリ消費を2.6倍に削減する。
さらに、Troveの使い易い推論パイプラインはオーバーヘッドを発生させず、利用可能なノード数とともに推論時間が線形に減少する。
最も重要なことは、Troveがどのように検索実験を単純化し、任意のカスタマイズを可能にし、探索的研究を容易にするかを実証することである。
関連論文リスト
- RePlay: a Recommendation Framework for Experimentation and Production Use [0.7421845364041001]
RePlayは推奨システムを構築するためのエンドツーエンドパイプラインを含むフレームワークである。
Pandas、Polars、Sparkの各ステージで、パイプラインに適したスタックを使用することができる。
これにより、ライブラリは計算をスケールし、クラスタにデプロイできる。
論文 参考訳(メタデータ) (2024-09-11T13:46:52Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - torchgfn: A PyTorch GFlowNet library [44.94532429787822]
我々は、このニーズに対処することを目的としたPyTorchライブラリであるTorchgfnを紹介します。
その中核的な貢献は、環境、ニューラルネットワークモジュールを扱い、目標を交換可能なコンポーネントとしてトレーニングするモジュールで分離されたアーキテクチャである。
これによってユーザは、高速なプロトタイピングと新しい研究を容易にする、シンプルだが強力なAPIをユーザに提供する。
論文 参考訳(メタデータ) (2023-05-24T00:20:59Z) - LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations [55.45435708426761]
LidarAugmentは3Dオブジェクト検出のための検索ベースのデータ拡張戦略である。
LidarAugmentはさまざまなモデルアーキテクチャ用にカスタマイズできる。
畳み込みベースのUPillars/StarNet/RSNとトランスフォーマーベースのSWFormerを一貫して改善する。
論文 参考訳(メタデータ) (2022-10-24T18:00:04Z) - CORL: Research-oriented Deep Offline Reinforcement Learning Library [48.47248460865739]
CORLはオープンソースのライブラリで、強化学習アルゴリズムの完全なベンチマークによる単一ファイルの実装を提供する。
単純で現代的な分析追跡ツールによる、シンプルな開発経験を強調している。
論文 参考訳(メタデータ) (2022-10-13T15:40:11Z) - CleanRL: High-quality Single-file Implementations of Deep Reinforcement
Learning Algorithms [0.0]
CleanRLはオープンソースのライブラリで、Deep Reinforcement Learningアルゴリズムの高品質なシングルファイル実装を提供する。
シンプルでスケーラブルな開発エクスペリエンスを提供し、運用ツールをシンプルに統合します。
論文 参考訳(メタデータ) (2021-11-16T22:44:56Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。