論文の概要: GRAM: Generative Retrieval Augmented Matching of Data Schemas in the Context of Data Security
- arxiv url: http://arxiv.org/abs/2406.01876v1
- Date: Tue, 4 Jun 2024 01:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:23:04.311585
- Title: GRAM: Generative Retrieval Augmented Matching of Data Schemas in the Context of Data Security
- Title(参考訳): GRAM:データセキュリティの文脈におけるデータスキーマの生成的検索マッチング
- Authors: Xuanqing Liu, Luyang Kong, Runhui Wang, Patrick Song, Austin Nevins, Henrik Johnson, Nimish Amlathe, Davor Golac,
- Abstract要約: 本研究では,大規模言語モデルの文脈における基礎的問題を再考する。
ますます厳しいデータセキュリティポリシーに則り、ゼロショットと少数ショットのシナリオに重点を置いています。
このような厳密な要求の下で属性を正確にマッチングする能力は、この領域におけるこれまでの文献との違いを識別します。
- 参考スコア(独自算出の注目度): 5.22260190195909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Schema matching constitutes a pivotal phase in the data ingestion process for contemporary database systems. Its objective is to discern pairwise similarities between two sets of attributes, each associated with a distinct data table. This challenge emerges at the initial stages of data analytics, such as when incorporating a third-party table into existing databases to inform business insights. Given its significance in the realm of database systems, schema matching has been under investigation since the 2000s. This study revisits this foundational problem within the context of large language models. Adhering to increasingly stringent data security policies, our focus lies on the zero-shot and few-shot scenarios: the model should analyze only a minimal amount of customer data to execute the matching task, contrasting with the conventional approach of scrutinizing the entire data table. We emphasize that the zero-shot or few-shot assumption is imperative to safeguard the identity and privacy of customer data, even at the potential cost of accuracy. The capability to accurately match attributes under such stringent requirements distinguishes our work from previous literature in this domain.
- Abstract(参考訳): スキーママッチングは、現代のデータベースシステムにおけるデータ取り込みプロセスにおける重要なフェーズを構成する。
その目的は、2つの属性のセット間のペアワイズな類似性を識別することであり、それぞれが別々のデータテーブルに関連付けられている。
この課題は、既存のデータベースにサードパーティのテーブルを組み込んでビジネス上の洞察を提供する場合など、データ分析の初期段階に現れます。
データベースシステムの領域において重要なことを考えると、スキーママッチングは2000年代から検討されている。
本研究は,大規模言語モデルの文脈における基礎的問題を再考する。
モデルは、マッチングタスクを実行するために最小限の顧客データだけを分析して、データテーブル全体を精査する従来のアプローチとは対照的である。
ゼロショットや少数ショットの仮定は、顧客データのアイデンティティとプライバシを保護するために必要不可欠である、と私たちは強調する。
このような厳密な要求の下で属性を正確にマッチングする能力は、この領域におけるこれまでの文献との違いを識別します。
関連論文リスト
- InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [81.4242018694792]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す31のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Meta-Learning With Hierarchical Models Based on Similarity of Causal
Mechanisms [23.842687721181107]
この研究はパーソナライズド医療によって動機付けられており、患者はタスクであり、複雑な疾患は原因と進行において患者間で異質である。
本稿では,タスクの因果的メカニズムの類似性のプロキシ尺度であるベイズ階層モデリング(Bayesianhierarchical modelling)を定式化したメタラーニングについて紹介する。
このようなプール化は,3つの健康関連ケーススタディにおいて,予測を改善することを示す。
論文 参考訳(メタデータ) (2023-10-19T09:03:41Z) - Mining Java Memory Errors using Subjective Interesting Subgroups with
Hierarchical Targets [1.188383832081829]
サブグループディスカバリ(SD)は、インシデントコードを自動的にマイニングし、識別パターンを抽出して問題の根本原因を特定するデータマイニング手法である。
複雑なターゲット概念を階層構造で扱える新しいSD手法を提案する。
本稿では,メモリ外エラーの調査にこの枠組みを適用し,インシデント診断におけるその有用性を示す。
論文 参考訳(メタデータ) (2023-10-01T20:24:59Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Subjective Learning for Open-Ended Data [12.363642151877688]
オープンエンドデータから学習する新しい教師あり学習パラダイムを提案する。
オープンエンドデータは本質的に複数の単一値決定論的写像関数を必要とする。
オープンエンド・スーパーバイザード・ラーニングは,タスクレベルの監督を伴わずに,ヒューマンライクなタスク認知を実現することを示す。
論文 参考訳(メタデータ) (2021-08-27T04:18:45Z) - Mining Feature Relationships in Data [0.0]
特徴関係マイニング(FRM)は、データの連続的または分類的特徴間の象徴的関係を自動的に発見する遺伝的プログラミング手法である。
提案手法は,特徴間の関係を明確に発見することを目的とした,最初の象徴的アプローチである。
実世界の様々なデータセットに対する実証テストにより、提案手法は高品質で単純な特徴関係を見つけることができることを示した。
論文 参考訳(メタデータ) (2021-02-02T07:06:16Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。