Fugu-MT 論文翻訳(概要): From Specific to Generic Learned Sorted Set Dictionaries: A Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in Practice

論文の概要: From Specific to Generic Learned Sorted Set Dictionaries: A Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in Practice

arxiv url: http://arxiv.org/abs/2309.00946v1
Date: Sat, 2 Sep 2023 13:52:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 00:06:17.878445
Title: From Specific to Generic Learned Sorted Set Dictionaries: A Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in Practice
Title（参考訳）: 具体的から汎用的な学習集合辞書: 競争的データ構造ブースターを実践する理論的に健全なパラダイム
Authors: Domenico Amato, Giosu\'e Lo Bosco and Raffaele Giancarlo
Abstract要約: 我々は学習されたセット辞書に焦点をあてる。我々は、既知の専門用語を補完する新しいパラダイムを提案し、任意のSorted Set Dictionaryの学習版を作成できる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research concerns Learned Data Structures, a recent area that has emerged at the crossroad of Machine Learning and Classic Data Structures. It is methodologically important and with a high practical impact. We focus on Learned Indexes, i.e., Learned Sorted Set Dictionaries. The proposals available so far are specific in the sense that they can boost, indeed impressively, the time performance of Table Search Procedures with a sorted layout only, e.g., Binary Search. We propose a novel paradigm that, complementing known specialized ones, can produce Learned versions of any Sorted Set Dictionary, for instance, Balanced Binary Search Trees or Binary Search on layouts other that sorted, i.e., Eytzinger. Theoretically, based on it, we obtain several results of interest, such as (a) the first Learned Optimum Binary Search Forest, with mean access time bounded by the Entropy of the probability distribution of the accesses to the Dictionary; (b) the first Learned Sorted Set Dictionary that, in the Dynamic Case and in an amortized analysis setting, matches the same time bounds known for Classic Dictionaries. This latter under widely accepted assumptions regarding the size of the Universe. The experimental part, somewhat complex in terms of software development, clearly indicates the nonobvious finding that the generalization we propose can yield effective and competitive Learned Data Structural Booster, even with respect to specific benchmark models.
Abstract（参考訳）: この研究は、機械学習と古典的なデータ構造を横断する領域であるLearred Data Structuresに関するものである。方法論上は重要であり、実践的な影響も大きい。学習したインデックス、すなわちソートされたセット辞書に焦点を当てます。これまで利用可能な提案は、テーブル検索手順の時間的パフォーマンスを、例えばバイナリ検索のようにソートされたレイアウトで向上できるという意味で特有である。我々は、既知の専門用語を補完する新しいパラダイムを提案し、例えば、Eytzingerのように分類されたレイアウト上の平衡二項探索木や二項探索木の学習版を作成することができる。理論的には、それに基づいて、興味のあるいくつかの結果を得る。 (a)辞書へのアクセスの確率分布のエントロピーによって、平均アクセス時間が制限された最初の学習された最適二分探索林 (b)動的の場合及び償却された分析設定において、古典辞書で知られている同じ時間境界に一致する最初の学習されたソート集合辞書後者は宇宙の大きさに関する仮定として広く受け入れられている。ソフトウェア開発に関してやや複雑である実験的な部分は、我々が提案する一般化が、特定のベンチマークモデルであっても、効果的で競争力のある学習データ構造ブースタをもたらすことを明らかに示しています。

関連論文リスト

Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文参考訳（メタデータ） (2024-09-10T12:46:23Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
Learning Interpretable Queries for Explainable Image Classification with Information Pursuit [18.089603786027503]
Information Pursuit (IP) は、データに関する解釈可能なクエリのシーケンスを欲求的に選択する説明可能な予測アルゴリズムである。本稿では,データセットから直接解釈可能なクエリの辞書を学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-16T21:43:07Z)
Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。本稿では,高密度検索のための新しい検索ユニット,命題を提案する。実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2023-12-11T18:57:35Z)
Generalized Time Warping Invariant Dictionary Learning for Time Series Classification and Clustering [8.14208923345076]
動的時間ワープ(DTW)は、時間的遅延、スケーリング、変換、その他多くの時間的ミスアライメント問題を扱うために一般的に使用される。本稿では,時変不変辞書学習アルゴリズムを提案する。辞書学習,分類,クラスタリングの観点から,提案手法の優位性を10組の公開データセットを用いて検証した。
論文参考訳（メタデータ） (2023-06-30T14:18:13Z)
Clustering Semantic Predicates in the Open Research Knowledge Graph [0.0]
オープンリサーチ知識グラフ(ORKG)のリソースに関する述語を推奨するために、2つのAIベースのクラスタリングアルゴリズムをカスタマイズするアプローチについて述べる。線形実行時の性能を比較的高い精度で再現する実験は,非常に有望な結果を示した。この研究は、44の研究分野にまたがる学術知識のセマンティフィケーションのための一般的なセマンティフィケーションパターンとして、自動的に緩やかに蓄積する述語群に対する新たな洞察を提供する。
論文参考訳（メタデータ） (2022-10-05T05:48:39Z)
OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。 OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-06-06T03:54:53Z)
Standard Vs Uniform Binary Search and Their Variants in Learned Static Indexing: The Case of the Searching on Sorted Data Benchmarking Software Platform [0.0]
学習者にとって、bf SOSDソフトウェアに関して、標準ルーチンの使用はUniformよりも優れていることを示す。実験の結果,一様二項探索とk-ary Searchは学習空間の節約に有用であることが示唆された。
論文参考訳（メタデータ） (2022-01-05T11:46:16Z)
Learning from Data to Speed-up Sorted Table Search Procedures: Methodology and Practical Guidelines [0.0]
機械学習技術の拡張が、このようなスピードアップにどのような貢献をできるかを調査する。我々は、CPUおよびGPUコンピューティングの両方を考慮して、後者が前者に対して利益を上げることができるシナリオを特徴づける。実際、ここで提案した学習表検索手順を自然に補完するアルゴリズム的パラダイムを定式化し、既知の学習表検索手順の大部分を、単純な線形回帰を近似した「学習フェーズ」を持つものとして特徴付ける。
論文参考訳（メタデータ） (2020-07-20T16:26:54Z)
Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文参考訳（メタデータ） (2020-04-30T18:09:50Z)
Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。 Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文参考訳（メタデータ） (2020-02-03T16:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。