論文の概要: Prompt-Matcher: Leveraging Large Models to Reduce Uncertainty in Schema Matching Results
- arxiv url: http://arxiv.org/abs/2408.14507v3
- Date: Thu, 06 Mar 2025 10:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:09.144163
- Title: Prompt-Matcher: Leveraging Large Models to Reduce Uncertainty in Schema Matching Results
- Title(参考訳): Prompt-Matcher: スキーママッチング結果の不確かさを低減するために大規模モデルを活用する
- Authors: Longyu Feng, Huahang Li, Chen Jason Zhang,
- Abstract要約: 本稿では,大規模言語モデルの特定のプロンプトを用いた細粒度対応検証に基づく新しい手法を提案する。
本手法は,(1)対応選択アルゴリズム,(2)対応検証,(3)確率分布の更新の3つの主成分からなる反復ループである。
本稿では,計算効率においてブルートアルゴリズムを著しく上回る新しい$(1-1/e)$-approximationアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.13107643869251
- License:
- Abstract: Schema matching is the process of identifying correspondences between the elements of two given schemata, essential for database management systems, data integration, and data warehousing. For datasets across different scenarios, the optimal schema matching algorithm is different. For single algorithm, hyperparameter tuning also cases multiple results. All results assigned equal probabilities are stored in probabilistic databases to facilitate uncertainty management. The substantial degree of uncertainty diminishes the efficiency and reliability of data processing, thereby precluding the provision of more accurate information for decision-makers. To address this problem, we introduce a new approach based on fine-grained correspondence verification with specific prompt of Large Language Model. Our approach is an iterative loop that consists of three main components: (1) the correspondence selection algorithm, (2) correspondence verification, and (3) the update of probability distribution. The core idea is that correspondences intersect across multiple results, thereby linking the verification of correspondences to the reduction of uncertainty in candidate results. The task of selecting an optimal correspondence set to maximize the anticipated uncertainty reduction within a fixed budgetary framework is established as an NP-hard problem. We propose a novel $(1-1/e)$-approximation algorithm that significantly outperforms brute algorithm in terms of computational efficiency. To enhance correspondence verification, we have developed two prompt templates that enable GPT-4 to achieve state-of-the-art performance across two established benchmark datasets. Our comprehensive experimental evaluation demonstrates the superior effectiveness and robustness of the proposed approach.
- Abstract(参考訳): スキーママッチングは、与えられた2つのスキーマの要素間の対応を識別するプロセスであり、データベース管理システム、データ統合、データウェアハウスに必須である。
異なるシナリオにわたるデータセットでは、最適なスキーママッチングアルゴリズムが異なる。
単一アルゴリズムでは、ハイパーパラメータチューニングは複数の結果も含む。
等確率に割り当てられた全ての結果は、不確実性管理を容易にするために確率データベースに格納される。
かなりの不確実性は、データ処理の効率と信頼性を低下させ、意思決定者に対してより正確な情報の提供を先取りする。
この問題に対処するために,大規模言語モデルの特定のプロンプトを用いた細粒度対応検証に基づく新しい手法を提案する。
本手法は,(1)対応選択アルゴリズム,(2)対応検証,(3)確率分布の更新の3つの主成分からなる反復ループである。
中心となる考え方は、対応が複数の結果にまたがって交わることであり、それによって、対応の検証と候補結果の不確かさの低減がリンクされる。
NPハード問題として、固定予算枠内での予測不確実性の低減を最大化する最適な対応セットを選択するタスクを確立する。
本稿では,計算効率においてブルートアルゴリズムを著しく上回る新しい$(1-1/e)$-approximationアルゴリズムを提案する。
対応検証を強化するために,GPT-4が2つの確立されたベンチマークデータセットに対して,最先端性能を実現するための2つのプロンプトテンプレートを開発した。
本研究の総合的な実験評価は,提案手法の有効性とロバスト性を示すものである。
関連論文リスト
- Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Minimax and Communication-Efficient Distributed Best Subset Selection with Oracle Property [0.358439716487063]
大規模データの爆発はシングルマシンシステムの処理能力を上回っている。
分散推論への伝統的なアプローチは、高次元データセットにおいて真の疎性を達成するのにしばしば苦労する。
そこで本稿では,これらの問題に対処する2段階分散ベストサブセット選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-30T13:22:08Z) - Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement [19.277560848076984]
2段階の選択戦略は、選択したクエリとオブジェクトのミスマッチによるスケールバイアスと冗長性をもたらす。
本稿では,フィルタされた識別クエリのみにトランスフォーマーを符号化する階層型サリエンスフィルタリング精細化を提案する。
提案されたSalience DETRは、課題固有の3つのデータセットに対して、+4.0% AP、+0.2% AP、+4.4% APを大幅に改善する。
論文 参考訳(メタデータ) (2024-03-24T13:01:57Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Cost-Effective In-Context Learning for Entity Resolution: A Design Space
Exploration [26.65259285701739]
本稿では,ERに対する費用対効果のあるバッチプロンプト手法の開発方法について,総合的研究を行う。
PLMに基づく手法と比較して,バッチプロンプトはERにとって非常に費用対効果が高いことが判明した。
また,マッチング精度と金銭的コストのバランスを効果的に整えるための包括的実証選択戦略も考案した。
論文 参考訳(メタデータ) (2023-12-07T02:09:27Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Budgeted Classification with Rejection: An Evolutionary Method with
Multiple Objectives [0.0]
予算付きシーケンシャル分類器(BSC)プロセスは、部分的特徴取得と評価ステップのシーケンスを通じて入力を行う。
これにより、不要な特徴取得を防止するための入力の効率的な評価が可能になる。
本稿では,信頼度に基づく拒否オプション付き逐次分類器を構築するための問題固有遺伝的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-01T22:05:16Z) - Evolutionary Optimization of High-Coverage Budgeted Classifiers [1.7767466724342065]
予算付き多機能分類器(MSC)プロセスは、部分的特徴取得および評価ステップのシーケンスを通じて入力される。
本稿では,不確定な予測のための端末拒否オプションを組み込んだ問題固有MSCを提案する。
アルゴリズムの設計は、一意化による集約性能の概念を尊重しながら効率を重視している。
論文 参考訳(メタデータ) (2021-10-25T16:03:07Z) - Generalizable Mixed-Precision Quantization via Attribution Rank
Preservation [90.26603048354575]
効率的な推論のための一般化可能な混合精度量子化法(GMPQ)を提案する。
提案手法は,最先端の混合精度ネットワークと比較し,競合精度・複雑度トレードオフを求める。
論文 参考訳(メタデータ) (2021-08-05T16:41:57Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。