論文の概要: Trigram-Based Persistent IDE Indices with Quick Startup
- arxiv url: http://arxiv.org/abs/2403.03751v1
- Date: Wed, 6 Mar 2024 14:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:44:39.293212
- Title: Trigram-Based Persistent IDE Indices with Quick Startup
- Title(参考訳): TrigramベースのIDEインデックスとクイックスタートアップ
- Authors: Zakhar Iakovlev, Alexey Chulkov, Nikita Golikov, Vyacheslav Lukianov,
Nikita Zinoviev, Dmitry Ivanov, Vitaly Aksenov
- Abstract要約: トリグラムインデックスは、トリグラムからそれを含むファイルの集合への写像である。
コードリポジトリでは、トリグラムインデックスは異なるバージョンにまたがって進化する。
このアプローチでは、現在のバージョンのトリグラムインデックスを使用し、チェックアウト中にバージョン間の変更のみを適用します。
- 参考スコア(独自算出の注目度): 2.474995628629405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One common way to speed up the find operation within a set of text files
involves a trigram index. This structure is merely a map from a trigram
(sequence consisting of three characters) to a set of files which contain it.
When searching for a pattern, potential file locations are identified by
intersecting the sets related to the trigrams in the pattern. Then, the search
proceeds only in these files.
However, in a code repository, the trigram index evolves across different
versions. Upon checking out a new version, this index is typically built from
scratch, which is a time-consuming task, while we want our index to have almost
zero-time startup.
Thus, we explore the persistent version of a trigram index for full-text and
key word patterns search. Our approach just uses the current version of the
trigram index and applies only the changes between versions during checkout,
significantly enhancing performance. Furthermore, we extend our data structure
to accommodate CamelHump search for class and function names.
- Abstract(参考訳): テキストファイルの集合内の検索操作を高速化する一般的な方法は、トリグラムインデックスである。
この構造は、単にトリグラム(3文字からなる配列)からそれを含むファイルの集合へのマップである。
パターンを検索すると、パターンのトリグラムに関連するセットをインターセプトすることにより、潜在的なファイル位置を識別する。
そして、検索はこれらのファイルでのみ実行される。
しかし、コードリポジトリでは、trigramインデックスは異なるバージョンにわたって進化します。
新バージョンをチェックアウトすると、このインデックスは通常、スクラッチから構築されますが、これは時間を要するタスクです。
そこで本研究では,全文およびキーワードパターン検索のためのトリグラムインデックスの永続バージョンについて検討する。
このアプローチでは,現在のトリグラムインデックスを使用するだけで,チェックアウト中のバージョン間の変更のみを適用して,パフォーマンスを大幅に向上する。
さらに、クラス名と関数名のCamelHump検索に対応するように、データ構造を拡張します。
関連論文リスト
- Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - From Specific to Generic Learned Sorted Set Dictionaries: A
Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in
Practice [0.0]
我々は学習されたセット辞書に焦点をあてる。
我々は、既知の専門用語を補完する新しいパラダイムを提案し、任意のSorted Set Dictionaryの学習版を作成できる。
論文 参考訳(メタデータ) (2023-09-02T13:52:53Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Trie-based ranking of quantum many-body states [0.0]
ランク付けビットパターンは、数値量子多体計算をスケールアップする主要なボトルネックである。
検索を二分する代わりに試行法を提案する。
ランク順列の重要な問題に対して、対応する試行を圧縮することができる。
論文 参考訳(メタデータ) (2022-03-08T15:42:33Z) - A Semantic Indexing Structure for Image Retrieval [9.889773269004241]
セマンティックインデックス構造(SIS)と呼ばれる新しい分類に基づくインデックス構造を提案する。
SISはクラスタリングセンタではなくセマンティックカテゴリを使用して、データベースパーティションを生成する。
SISは最先端のモデルと比較して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-14T11:12:30Z) - Memory-Efficient Differentiable Transformer Architecture Search [59.47253706925725]
マルチ分割可逆ネットワークを提案し,それをDARTSと組み合わせる。
具体的には、最後のレイヤの出力だけを保存するために、バックプロパゲーション・ウィズ・リコンストラクション・アルゴリズムを考案する。
本稿では,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14の3つのシーケンス・ツー・シーケンス・データセットを用いて検索アーキテクチャを評価する。
論文 参考訳(メタデータ) (2021-05-31T01:52:36Z) - Structural Textile Pattern Recognition and Processing Based on
Hypergraphs [2.4963790083110426]
織物アーカイブの構造に基づく類似の織物パターンを認識するアプローチを紹介します。
まず,ハイパーグラフを用いて織物構造を表現し,これらのグラフから織物パターンを記述するk-neighbourhoodの多重集合を抽出する。
結果の多重集合は、様々な距離測度と様々なクラスタリングアルゴリズムを用いてクラスタ化される。
論文 参考訳(メタデータ) (2021-03-21T00:44:40Z) - The Semantic Adjacency Criterion in Time Intervals Mining [70.13948372218849]
SAC(Semantic Adjacency Criterion)と呼ばれる頻繁な時間パターン発見過程における新たなプルーニング制約を提案する。
我々は3つのSACバージョンを定義し、その効果を3つの医学領域で検証した。
論文 参考訳(メタデータ) (2021-01-11T12:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。