論文の概要: From Specific to Generic Learned Sorted Set Dictionaries: A
Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in
Practice
- arxiv url: http://arxiv.org/abs/2309.00946v1
- Date: Sat, 2 Sep 2023 13:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:06:17.878445
- Title: From Specific to Generic Learned Sorted Set Dictionaries: A
Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in
Practice
- Title(参考訳): 具体的から汎用的な学習集合辞書: 競争的データ構造ブースターを実践する理論的に健全なパラダイム
- Authors: Domenico Amato, Giosu\'e Lo Bosco and Raffaele Giancarlo
- Abstract要約: 我々は学習されたセット辞書に焦点をあてる。
我々は、既知の専門用語を補完する新しいパラダイムを提案し、任意のSorted Set Dictionaryの学習版を作成できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research concerns Learned Data Structures, a recent area that has
emerged at the crossroad of Machine Learning and Classic Data Structures. It is
methodologically important and with a high practical impact. We focus on
Learned Indexes, i.e., Learned Sorted Set Dictionaries. The proposals available
so far are specific in the sense that they can boost, indeed impressively, the
time performance of Table Search Procedures with a sorted layout only, e.g.,
Binary Search. We propose a novel paradigm that, complementing known
specialized ones, can produce Learned versions of any Sorted Set Dictionary,
for instance, Balanced Binary Search Trees or Binary Search on layouts other
that sorted, i.e., Eytzinger. Theoretically, based on it, we obtain several
results of interest, such as (a) the first Learned Optimum Binary Search
Forest, with mean access time bounded by the Entropy of the probability
distribution of the accesses to the Dictionary; (b) the first Learned Sorted
Set Dictionary that, in the Dynamic Case and in an amortized analysis setting,
matches the same time bounds known for Classic Dictionaries. This latter under
widely accepted assumptions regarding the size of the Universe. The
experimental part, somewhat complex in terms of software development, clearly
indicates the nonobvious finding that the generalization we propose can yield
effective and competitive Learned Data Structural Booster, even with respect to
specific benchmark models.
- Abstract(参考訳): この研究は、機械学習と古典的なデータ構造を横断する領域であるLearred Data Structuresに関するものである。
方法論上は重要であり、実践的な影響も大きい。
学習したインデックス、すなわちソートされたセット辞書に焦点を当てます。
これまで利用可能な提案は、テーブル検索手順の時間的パフォーマンスを、例えばバイナリ検索のようにソートされたレイアウトで向上できるという意味で特有である。
我々は、既知の専門用語を補完する新しいパラダイムを提案し、例えば、Eytzingerのように分類されたレイアウト上の平衡二項探索木や二項探索木の学習版を作成することができる。
理論的には、それに基づいて、興味のあるいくつかの結果を得る。
(a)辞書へのアクセスの確率分布のエントロピーによって、平均アクセス時間が制限された最初の学習された最適二分探索林
(b)動的の場合及び償却された分析設定において、古典辞書で知られている同じ時間境界に一致する最初の学習されたソート集合辞書
後者は宇宙の大きさに関する仮定として広く受け入れられている。
ソフトウェア開発に関してやや複雑である実験的な部分は、我々が提案する一般化が、特定のベンチマークモデルであっても、効果的で競争力のある学習データ構造ブースタをもたらすことを明らかに示しています。
関連論文リスト
- Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
大規模言語モデル(LLM)と決定木推論(OCTree)に基づく新しいフレームワークを提案する。
私たちのキーとなるアイデアは、LLMの推論機能を活用して、手動で検索スペースを指定せずに優れた特徴生成ルールを見つけることです。
実験の結果、この単純なフレームワークは様々な予測モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Learning Interpretable Queries for Explainable Image Classification with
Information Pursuit [18.089603786027503]
Information Pursuit (IP) は、データに関する解釈可能なクエリのシーケンスを欲求的に選択する説明可能な予測アルゴリズムである。
本稿では,データセットから直接解釈可能なクエリの辞書を学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T21:43:07Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Generalized Time Warping Invariant Dictionary Learning for Time Series
Classification and Clustering [8.14208923345076]
動的時間ワープ(DTW)は、時間的遅延、スケーリング、変換、その他多くの時間的ミスアライメント問題を扱うために一般的に使用される。
本稿では,時変不変辞書学習アルゴリズムを提案する。
辞書学習,分類,クラスタリングの観点から,提案手法の優位性を10組の公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-06-30T14:18:13Z) - Clustering Semantic Predicates in the Open Research Knowledge Graph [0.0]
オープンリサーチ知識グラフ(ORKG)のリソースに関する述語を推奨するために、2つのAIベースのクラスタリングアルゴリズムをカスタマイズするアプローチについて述べる。
線形実行時の性能を比較的高い精度で再現する実験は,非常に有望な結果を示した。
この研究は、44の研究分野にまたがる学術知識のセマンティフィケーションのための一般的なセマンティフィケーションパターンとして、自動的に緩やかに蓄積する述語群に対する新たな洞察を提供する。
論文 参考訳(メタデータ) (2022-10-05T05:48:39Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Standard Vs Uniform Binary Search and Their Variants in Learned Static
Indexing: The Case of the Searching on Sorted Data Benchmarking Software
Platform [0.0]
学習者にとって、bf SOSDソフトウェアに関して、標準ルーチンの使用はUniformよりも優れていることを示す。
実験の結果,一様二項探索とk-ary Searchは学習空間の節約に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-01-05T11:46:16Z) - Learning from Data to Speed-up Sorted Table Search Procedures:
Methodology and Practical Guidelines [0.0]
機械学習技術の拡張が、このようなスピードアップにどのような貢献をできるかを調査する。
我々は、CPUおよびGPUコンピューティングの両方を考慮して、後者が前者に対して利益を上げることができるシナリオを特徴づける。
実際、ここで提案した学習表検索手順を自然に補完するアルゴリズム的パラダイムを定式化し、既知の学習表検索手順の大部分を、単純な線形回帰を近似した「学習フェーズ」を持つものとして特徴付ける。
論文 参考訳(メタデータ) (2020-07-20T16:26:54Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z) - Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。
Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文 参考訳(メタデータ) (2020-02-03T16:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。