Fugu-MT 論文翻訳(概要): Trigram-Based Persistent IDE Indices with Quick Startup

論文の概要: Trigram-Based Persistent IDE Indices with Quick Startup

arxiv url: http://arxiv.org/abs/2403.03751v1
Date: Wed, 6 Mar 2024 14:37:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 14:44:39.293212
Title: Trigram-Based Persistent IDE Indices with Quick Startup
Title（参考訳）: TrigramベースのIDEインデックスとクイックスタートアップ
Authors: Zakhar Iakovlev, Alexey Chulkov, Nikita Golikov, Vyacheslav Lukianov, Nikita Zinoviev, Dmitry Ivanov, Vitaly Aksenov
Abstract要約: トリグラムインデックスは、トリグラムからそれを含むファイルの集合への写像である。コードリポジトリでは、トリグラムインデックスは異なるバージョンにまたがって進化する。このアプローチでは、現在のバージョンのトリグラムインデックスを使用し、チェックアウト中にバージョン間の変更のみを適用します。
参考スコア（独自算出の注目度）: 2.474995628629405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One common way to speed up the find operation within a set of text files involves a trigram index. This structure is merely a map from a trigram (sequence consisting of three characters) to a set of files which contain it. When searching for a pattern, potential file locations are identified by intersecting the sets related to the trigrams in the pattern. Then, the search proceeds only in these files. However, in a code repository, the trigram index evolves across different versions. Upon checking out a new version, this index is typically built from scratch, which is a time-consuming task, while we want our index to have almost zero-time startup. Thus, we explore the persistent version of a trigram index for full-text and key word patterns search. Our approach just uses the current version of the trigram index and applies only the changes between versions during checkout, significantly enhancing performance. Furthermore, we extend our data structure to accommodate CamelHump search for class and function names.
Abstract（参考訳）: テキストファイルの集合内の検索操作を高速化する一般的な方法は、トリグラムインデックスである。この構造は、単にトリグラム(3文字からなる配列)からそれを含むファイルの集合へのマップである。パターンを検索すると、パターンのトリグラムに関連するセットをインターセプトすることにより、潜在的なファイル位置を識別する。そして、検索はこれらのファイルでのみ実行される。しかし、コードリポジトリでは、trigramインデックスは異なるバージョンにわたって進化します。新バージョンをチェックアウトすると、このインデックスは通常、スクラッチから構築されますが、これは時間を要するタスクです。そこで本研究では,全文およびキーワードパターン検索のためのトリグラムインデックスの永続バージョンについて検討する。このアプローチでは,現在のトリグラムインデックスを使用するだけで,チェックアウト中のバージョン間の変更のみを適用して,パフォーマンスを大幅に向上する。さらに、クラス名と関数名のCamelHump検索に対応するように、データ構造を拡張します。

関連論文リスト

Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。 AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文参考訳（メタデータ） (2026-02-24T18:57:33Z)
SIEVE: Effective Filtered Vector Search with Collection of Indexes [11.81573028534193]
子供タグで動画を推薦するといった現実世界のタスクは、ハードな述語に関連する最も類似したベクターを見つけるために削減できる。従来の最先端のグラフベース類似性探索技術は、厳しい制約を考慮すると急速に退化する。選択性や形態の異なるデータセットに対して,優れた性能とサポートを示す。
論文参考訳（メタデータ） (2025-07-16T04:46:28Z)
Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
From Specific to Generic Learned Sorted Set Dictionaries: A Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in Practice [0.0]
我々は学習されたセット辞書に焦点をあてる。我々は、既知の専門用語を補完する新しいパラダイムを提案し、任意のSorted Set Dictionaryの学習版を作成できる。
論文参考訳（メタデータ） (2023-09-02T13:52:53Z)
Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-07-13T05:03:26Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Trie-based ranking of quantum many-body states [0.0]
ランク付けビットパターンは、数値量子多体計算をスケールアップする主要なボトルネックである。検索を二分する代わりに試行法を提案する。ランク順列の重要な問題に対して、対応する試行を圧縮することができる。
論文参考訳（メタデータ） (2022-03-08T15:42:33Z)
A Semantic Indexing Structure for Image Retrieval [9.889773269004241]
セマンティックインデックス構造(SIS)と呼ばれる新しい分類に基づくインデックス構造を提案する。 SISはクラスタリングセンタではなくセマンティックカテゴリを使用して、データベースパーティションを生成する。 SISは最先端のモデルと比較して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-09-14T11:12:30Z)
Memory-Efficient Differentiable Transformer Architecture Search [59.47253706925725]
マルチ分割可逆ネットワークを提案し,それをDARTSと組み合わせる。具体的には、最後のレイヤの出力だけを保存するために、バックプロパゲーション・ウィズ・リコンストラクション・アルゴリズムを考案する。本稿では,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14の3つのシーケンス・ツー・シーケンス・データセットを用いて検索アーキテクチャを評価する。
論文参考訳（メタデータ） (2021-05-31T01:52:36Z)
Structural Textile Pattern Recognition and Processing Based on Hypergraphs [2.4963790083110426]
織物アーカイブの構造に基づく類似の織物パターンを認識するアプローチを紹介します。まず,ハイパーグラフを用いて織物構造を表現し,これらのグラフから織物パターンを記述するk-neighbourhoodの多重集合を抽出する。結果の多重集合は、様々な距離測度と様々なクラスタリングアルゴリズムを用いてクラスタ化される。
論文参考訳（メタデータ） (2021-03-21T00:44:40Z)
The Semantic Adjacency Criterion in Time Intervals Mining [70.13948372218849]
SAC(Semantic Adjacency Criterion)と呼ばれる頻繁な時間パターン発見過程における新たなプルーニング制約を提案する。我々は3つのSACバージョンを定義し、その効果を3つの医学領域で検証した。
論文参考訳（メタデータ） (2021-01-11T12:23:49Z)
AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文参考訳（メタデータ） (2020-03-14T06:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。