論文の概要: GRAM: Generative Retrieval Augmented Matching of Data Schemas in the Context of Data Security
- arxiv url: http://arxiv.org/abs/2406.01876v1
- Date: Tue, 4 Jun 2024 01:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:23:04.311585
- Title: GRAM: Generative Retrieval Augmented Matching of Data Schemas in the Context of Data Security
- Title(参考訳): GRAM:データセキュリティの文脈におけるデータスキーマの生成的検索マッチング
- Authors: Xuanqing Liu, Luyang Kong, Runhui Wang, Patrick Song, Austin Nevins, Henrik Johnson, Nimish Amlathe, Davor Golac,
- Abstract要約: 本研究では,大規模言語モデルの文脈における基礎的問題を再考する。
ますます厳しいデータセキュリティポリシーに則り、ゼロショットと少数ショットのシナリオに重点を置いています。
このような厳密な要求の下で属性を正確にマッチングする能力は、この領域におけるこれまでの文献との違いを識別します。
- 参考スコア(独自算出の注目度): 5.22260190195909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Schema matching constitutes a pivotal phase in the data ingestion process for contemporary database systems. Its objective is to discern pairwise similarities between two sets of attributes, each associated with a distinct data table. This challenge emerges at the initial stages of data analytics, such as when incorporating a third-party table into existing databases to inform business insights. Given its significance in the realm of database systems, schema matching has been under investigation since the 2000s. This study revisits this foundational problem within the context of large language models. Adhering to increasingly stringent data security policies, our focus lies on the zero-shot and few-shot scenarios: the model should analyze only a minimal amount of customer data to execute the matching task, contrasting with the conventional approach of scrutinizing the entire data table. We emphasize that the zero-shot or few-shot assumption is imperative to safeguard the identity and privacy of customer data, even at the potential cost of accuracy. The capability to accurately match attributes under such stringent requirements distinguishes our work from previous literature in this domain.
- Abstract(参考訳): スキーママッチングは、現代のデータベースシステムにおけるデータ取り込みプロセスにおける重要なフェーズを構成する。
その目的は、2つの属性のセット間のペアワイズな類似性を識別することであり、それぞれが別々のデータテーブルに関連付けられている。
この課題は、既存のデータベースにサードパーティのテーブルを組み込んでビジネス上の洞察を提供する場合など、データ分析の初期段階に現れます。
データベースシステムの領域において重要なことを考えると、スキーママッチングは2000年代から検討されている。
本研究は,大規模言語モデルの文脈における基礎的問題を再考する。
モデルは、マッチングタスクを実行するために最小限の顧客データだけを分析して、データテーブル全体を精査する従来のアプローチとは対照的である。
ゼロショットや少数ショットの仮定は、顧客データのアイデンティティとプライバシを保護するために必要不可欠である、と私たちは強調する。
このような厳密な要求の下で属性を正確にマッチングする能力は、この領域におけるこれまでの文献との違いを識別します。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - An Ensemble Scheme for Proactive Dominant Data Migration of Pervasive Tasks at the Edge [5.4327243200369555]
本稿では,インフラ内の特定の場所に移動すべき適切なデータの識別について,自律エッジノードで実装する手法を提案する。
我々の目標は、オフロードされたデータ駆動タスクに関連するアクセスパターンを理解できるようにノードに装備することである。
これらのタスクは、元のホスティングノードにないデータの処理に依存することは明らかである。
これらのデータ間隔を推定するために,統計的指向モデルと機械学習フレームワークを統合したアンサンブルアプローチを用いる。
論文 参考訳(メタデータ) (2024-10-12T19:09:16Z) - Distributed In-Context Learning under Non-IID Among Clients [38.868357555845435]
In-context Learning (ICL)は、クエリに関連する一連のデータポイントを取得することで、数ショット適応のための有望なソリューションを提供する。
本稿では,テストクエリが非IID性のため,クライアント間で異なる好みを持つことを示す。
データ利用予算が存在する場合、分散非IID ICL問題に対処するための新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-07-31T20:06:25Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Subjective Learning for Open-Ended Data [12.363642151877688]
オープンエンドデータから学習する新しい教師あり学習パラダイムを提案する。
オープンエンドデータは本質的に複数の単一値決定論的写像関数を必要とする。
オープンエンド・スーパーバイザード・ラーニングは,タスクレベルの監督を伴わずに,ヒューマンライクなタスク認知を実現することを示す。
論文 参考訳(メタデータ) (2021-08-27T04:18:45Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。