論文の概要: PLM4NDV: Minimizing Data Access for Number of Distinct Values Estimation with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2504.00608v1
- Date: Tue, 01 Apr 2025 10:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:57.735569
- Title: PLM4NDV: Minimizing Data Access for Number of Distinct Values Estimation with Pre-trained Language Models
- Title(参考訳): PLM4NDV:事前学習言語モデルによる固有値推定のためのデータアクセスの最小化
- Authors: Xianghong Xu, Xiao He, Tieying Zhang, Lei Zhang, Rui Shi, Jianjun Chen,
- Abstract要約: マルチセット/カラムの固有値数(NDV)推定は、多くのデータ管理タスクの基盤となる。
何十年にもわたっての研究にもかかわらず、既存の手法のほとんどは、かなりの量のサンプルを必要とするか、見積もりを生成するために列全体にアクセスする必要がある。
我々はこれらの課題に対処するために意味情報、すなわちスキーマを活用することを提案する。
- 参考スコア(独自算出の注目度): 10.735643743812657
- License:
- Abstract: Number of Distinct Values (NDV) estimation of a multiset/column is a basis for many data management tasks, especially within databases. Despite decades of research, most existing methods require either a significant amount of samples through uniform random sampling or access to the entire column to produce estimates, leading to substantial data access costs and potentially ineffective estimations in scenarios with limited data access. In this paper, we propose leveraging semantic information, i.e., schema, to address these challenges. The schema contains rich semantic information that can benefit the NDV estimation. To this end, we propose PLM4NDV, a learned method incorporating Pre-trained Language Models (PLMs) to extract semantic schema information for NDV estimation. Specifically, PLM4NDV leverages the semantics of the target column and the corresponding table to gain a comprehensive understanding of the column's meaning. By using the semantics, PLM4NDV reduces data access costs, provides accurate NDV estimation, and can even operate effectively without any data access. Extensive experiments on a large-scale real-world dataset demonstrate the superiority of PLM4NDV over baseline methods. Our code is available at https://github.com/bytedance/plm4ndv.
- Abstract(参考訳): マルチセット/カラムの固有値数(NDV)の推定は、特にデータベース内の多くのデータ管理タスクの基盤となる。
何十年にもわたっての研究にもかかわらず、既存の手法のほとんどは、均一なランダムサンプリングを通してかなりの量のサンプルを必要とするか、見積もりを生成するために列全体にアクセスする必要がある。
本稿では,これらの課題に対処するために意味情報,すなわちスキーマを活用することを提案する。
スキーマには、NDV推定の恩恵を受けることができる豊富な意味情報が含まれている。
そこで本研究では,NDV推定のための意味スキーマ情報を抽出するために,事前学習言語モデル(PLM)を組み込んだ学習手法であるPLM4NDVを提案する。
具体的には、PLM4NDVは、目的の列と対応するテーブルのセマンティクスを利用して、列の意味を包括的に理解する。
セマンティクスを使用することで、PLM4NDVはデータアクセスコストを削減し、正確なNDV推定を提供し、データアクセスなしで効果的に操作できる。
大規模実世界のデータセットに対する大規模な実験は、ベースライン法よりもPLM4NDVの方が優れていることを示した。
私たちのコードはhttps://github.com/bytedance/plm4ndv.comから入手可能です。
関連論文リスト
- MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - A Little Confidence Goes a Long Way [3.6371715211657243]
大規模言語モデル(LLM)における隠れ状態アクティベーションのプローブを用いたバイナリ分類タスクの関連手法のグループを紹介する。
性能は、現在利用可能な最大かつ最も先進的なLCMと同等であるが、桁違いに少ない計算資源が必要であり、ラベル付きデータを必要としない。
論文 参考訳(メタデータ) (2024-08-20T23:36:00Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。