論文の概要: On Precomputation and Caching in Information Retrieval Experiments with Pipeline Architectures
- arxiv url: http://arxiv.org/abs/2504.09984v1
- Date: Mon, 14 Apr 2025 08:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:48:38.051539
- Title: On Precomputation and Caching in Information Retrieval Experiments with Pipeline Architectures
- Title(参考訳): パイプラインアーキテクチャを用いた情報検索実験における事前計算とキャッシングについて
- Authors: Sean MacAvaney, Craig Macdonald,
- Abstract要約: 我々は、オープンソースのPyTerrier IRプラットフォームのキャッシング機能を改善する取り組みについて説明する。
1)システム比較時の共通パイプラインプレフィックスの自動暗黙キャッシュと,(2)新しい拡張パッケージであるpyterrier-cachingによるオペレーションの明示的なキャッシュである。
- 参考スコア(独自算出の注目度): 29.052615070543606
- License:
- Abstract: Modern information retrieval systems often rely on multiple components executed in a pipeline. In a research setting, this can lead to substantial redundant computations (e.g., retrieving the same query multiple times for evaluating different downstream rerankers). To overcome this, researchers take cached "result" files as inputs, which represent the output of another pipeline. However, these result files can be brittle and can cause a disconnect between the conceptual design of the pipeline and its logical implementation. To overcome both the redundancy problem (when executing complete pipelines) and the disconnect problem (when relying on intermediate result files), we describe our recent efforts to improve the caching capabilities in the open-source PyTerrier IR platform. We focus on two main directions: (1) automatic implicit caching of common pipeline prefixes when comparing systems and (2) explicit caching of operations through a new extension package, pyterrier-caching. These approaches allow for the best of both worlds: pipelines can be fully expressed end-to-end, while also avoiding redundant computations between pipelines.
- Abstract(参考訳): 現代の情報検索システムはパイプラインで実行される複数のコンポーネントに依存していることが多い。
研究環境では、これはかなりの冗長な計算につながる可能性がある(例えば、異なる下流リランカを評価するために同じクエリを複数回取得するなど)。
これを解決するために、研究者はキャッシュされた"result"ファイルを入力として、別のパイプラインの出力を表す。
しかし、これらの結果ファイルは脆くなり、パイプラインの概念的設計と論理的実装との切り離しを引き起こす可能性がある。
完全パイプライン実行時の)冗長性問題と(中間結果ファイルに依存する場合)切断問題の両方を克服するために、オープンソースのPyTerrier IRプラットフォームのキャッシング機能を改善するための最近の取り組みについて述べる。
1)システム比較時の共通パイプラインプレフィックスの自動暗黙キャッシュと,(2)新しい拡張パッケージであるpyterrier-cachingによるオペレーションの明示的なキャッシュである。
パイプラインはエンドツーエンドで完全に表現できると同時に、パイプライン間の冗長な計算も回避できる。
関連論文リスト
- Turbocharge Speech Understanding with Pilot Inference [0.9699101045941684]
本稿では,資源制約のあるエッジデバイス上での現代音声理解の促進を図る。
デバイス上での実行をスピードアップする、デバイス容量を超える入力をオフロードする、というハイブリッドなアプローチが必要です。
プロトタイプはPASUと呼ばれ、Armプラットフォーム上で6~8コアでテストされており、SOTAの精度が得られます。
論文 参考訳(メタデータ) (2023-11-22T17:14:18Z) - Pathway: a fast and flexible unified stream data processing framework
for analytical and Machine Learning applications [7.850979932441607]
Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。
本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-07-12T08:27:37Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - Towards Bi-directional Skip Connections in Encoder-Decoder Architectures
and Beyond [95.46272735589648]
本稿では,デコードされた機能をエンコーダに戻すための後方スキップ接続を提案する。
我々の設計は、任意のエンコーダ・デコーダアーキテクチャにおいて前方スキップ接続と共同で適用することができる。
本稿では,2相ニューラルネットワーク探索(NAS)アルゴリズム,すなわちBiX-NASを提案する。
論文 参考訳(メタデータ) (2022-03-11T01:38:52Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Plumber: Diagnosing and Removing Performance Bottlenecks in Machine
Learning Data Pipelines [7.022239953701528]
機械学習(ML)入力パイプラインのボトルネックを見つけるツールであるPlumberを提案する。
5つの代表的MLパイプラインにまたがって、Plumberはパイプラインの最大46倍のスピードアップを取得する。
キャッシュを自動化することで、Plumberは最先端のチューナーと比較して、エンドツーエンドのスピードアップを40%以上獲得する。
論文 参考訳(メタデータ) (2021-11-07T17:15:57Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - Rethinking Learning-based Demosaicing, Denoising, and Super-Resolution
Pipeline [86.01209981642005]
本研究では,パイプラインが学習ベースDN,DM,SRの混合問題に与える影響について,逐次解とジョイント解の両方で検討する。
我々の提案するパイプラインDN$to$SR$to$DMは、他のシーケンシャルパイプラインよりも一貫してパフォーマンスが向上する。
混合問題に対する最先端の性能を実現するために, エンドツーエンドのトリニティ・カメラ・エンハンスメント・ネットワーク(TENet)を提案する。
論文 参考訳(メタデータ) (2019-05-07T13:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。