論文の概要: Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2203.05765v1
- Date: Fri, 11 Mar 2022 05:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:58:54.803012
- Title: Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval
- Title(参考訳): Tevatron: ディエンス検索のための効率的で柔軟なツールキット
- Authors: Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan
- Abstract要約: Tevatronは、効率、柔軟性、コードの単純さに最適化された高密度な検索ツールキットである。
Tevatronのフレキシブルな設計は、データセット、モデルアーキテクチャ、アクセラレータプラットフォームをまたいで簡単に一般化できることを示す。
- 参考スコア(独自算出の注目度): 60.457378374671656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent rapid advancements in deep pre-trained language models and the
introductions of large datasets have powered research in embedding-based dense
retrieval. While several good research papers have emerged, many of them come
with their own software stacks. These stacks are typically optimized for some
particular research goals instead of efficiency or code structure. In this
paper, we present Tevatron, a dense retrieval toolkit optimized for efficiency,
flexibility, and code simplicity. Tevatron provides a standardized pipeline for
dense retrieval including text processing, model training, corpus/query
encoding, and search. This paper presents an overview of Tevatron and
demonstrates its effectiveness and efficiency across several IR and QA data
sets. We also show how Tevatron's flexible design enables easy generalization
across datasets, model architectures, and accelerator platforms(GPU/TPU). We
believe Tevatron can serve as an effective software foundation for dense
retrieval system research including design, modeling, and optimization.
- Abstract(参考訳): 近年、深層学習言語モデルの急速な進歩と大規模なデータセットの導入は、埋め込みに基づく密集検索の研究に力を入れている。
優れた研究論文がいくつか出回っているが、その多くが独自のソフトウェアスタックを持っている。
これらのスタックは通常、効率やコード構造ではなく、特定の研究目標に最適化される。
本稿では,効率,柔軟性,コード単純性に最適化された高密度検索ツールキットTevatronを提案する。
Tevatronは、テキスト処理、モデルトレーニング、コーパス/クエリエンコーディング、検索を含む、高密度検索のための標準化されたパイプラインを提供する。
本稿では,テバトロンの概要を述べるとともに,その有効性と効率を複数のIRおよびQAデータセットで示す。
また,Tevatronのフレキシブルな設計により,データセットやモデルアーキテクチャ,アクセラレーションプラットフォーム(GPU/TPU)の一般化が容易になることを示す。
我々はテバトロンが設計、モデリング、最適化を含む高密度検索システム研究のための効果的なソフトウェア基盤となると信じている。
関連論文リスト
- Exploring Effects of Hyperdimensional Vectors for Tsetlin Machines [12.619567138333492]
本稿では,任意の入力データに関連する概念集合を任意に表現するためのハイパーベクター(HV)に基づく手法を提案する。
超次元空間を用いてベクトルを構築すると、TMの容量と柔軟性が劇的に拡大する。
提案手法により, 画像, 化合物, 自然言語テキストのエンコード方法, 得られたHVによるTMが, 精度が高く, 学習速度も向上することを示す。
論文 参考訳(メタデータ) (2024-06-04T14:16:52Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - A Unified Active Learning Framework for Annotating Graph Data with
Application to Software Source Code Performance Prediction [4.572330678291241]
ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。
能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。
我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
論文 参考訳(メタデータ) (2023-04-06T14:00:48Z) - Dense Sparse Retrieval: Using Sparse Language Models for Inference
Efficient Dense Retrieval [37.22592489907125]
本研究では,高密度検索にスパース言語モデルを用いて推論効率を向上する方法について検討する。
スパース言語モデルは、ほとんど精度を落とさず、推論速度を最大4.3倍改善した直接置換として使用することができる。
論文 参考訳(メタデータ) (2023-03-31T20:21:32Z) - Desbordante: from benchmarking suite to high-performance
science-intensive data profiler (preprint) [36.537985747809245]
Desbordanteは、オープンソースのコードを持つ高性能な科学集約型データプロファイラである。
類似のシステムとは異なり、マルチユーザ環境での産業的応用に重点を置いて構築されている。
効率的で、クラッシュに対して回復力があり、スケーラブルです。
論文 参考訳(メタデータ) (2023-01-14T19:14:51Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z) - PHOTONAI -- A Python API for Rapid Machine Learning Model Development [2.414341608751139]
PHOTONAIは、機械学習モデル開発の簡素化と高速化を目的とした、ハイレベルなPython APIである。
これは統一フレームワークとして機能し、ユーザーは異なるツールボックスからのアルゴリズムをカスタムのアルゴリズムシーケンスに簡単にアクセスし、組み合わせることができる。
論文 参考訳(メタデータ) (2020-02-13T10:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。