論文の概要: Mind the Data Gap: Bridging LLMs to Enterprise Data Integration
- arxiv url: http://arxiv.org/abs/2412.20331v1
- Date: Sun, 29 Dec 2024 03:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:58.035385
- Title: Mind the Data Gap: Bridging LLMs to Enterprise Data Integration
- Title(参考訳): データギャップを意識する - LLMをエンタープライズデータ統合にブリッジする
- Authors: Moe Kayali, Fabian Wenz, Nesime Tatbul, Çağatay Demiralp,
- Abstract要約: 本研究では,大規模言語モデル(LLM)に基づく手法の性能が,実世界のデータセットでテストした場合に著しく低下することを示す。
我々は、エンタープライズデータ統合の発見を前進させるために、新しいベンチマークデータセットであるGOBY Benchmarkをリリースする。
- 参考スコア(独自算出の注目度): 2.7248990920379725
- License:
- Abstract: Leading large language models (LLMs) are trained on public data. However, most of the world's data is dark data that is not publicly accessible, mainly in the form of private organizational or enterprise data. We show that the performance of methods based on LLMs seriously degrades when tested on real-world enterprise datasets. Current benchmarks, based on public data, overestimate the performance of LLMs. We release a new benchmark dataset, the GOBY Benchmark, to advance discovery in enterprise data integration. Based on our experience with this enterprise benchmark, we propose techniques to uplift the performance of LLMs on enterprise data, including (1) hierarchical annotation, (2) runtime class-learning, and (3) ontology synthesis. We show that, once these techniques are deployed, the performance on enterprise data becomes on par with that of public data. The Goby benchmark can be obtained at https://goby-benchmark.github.io/.
- Abstract(参考訳): 主要な大規模言語モデル(LLM)は、公開データに基づいてトレーニングされる。
しかし、世界のデータの大部分はダークデータであり、一般には公開されていない。
実世界のエンタープライズデータセットでテストした場合, LLM に基づく手法の性能は著しく低下することがわかった。
現在のベンチマークは、公開データに基づいて、LLMのパフォーマンスを過大評価している。
我々は、エンタープライズデータ統合の発見を前進させるために、新しいベンチマークデータセットであるGOBY Benchmarkをリリースする。
本稿では,1)階層的アノテーション,(2)実行時クラス学習,(3)オントロジー合成など,企業データ上でのLCMの性能向上手法を提案する。
これらの技術がデプロイされると、企業データのパフォーマンスが公開データと同等になることを示す。
Gobyベンチマークはhttps://goby-benchmark.github.io/で取得できる。
関連論文リスト
- Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts [0.6282171844772422]
多くのLarge Language Models(LLM)のトレーニングデータは、テストデータによって汚染される。
公開ベンチマークスコアは必ずしもモデルプロパティを正確に評価するとは限らない。
論文 参考訳(メタデータ) (2024-10-11T20:46:56Z) - BEAVER: An Enterprise Benchmark for Text-to-SQL [6.3900786001871195]
既存のテキストから生成するベンチマークは、Webから利用可能な表を使って構築されている。
本稿では,企業データウェアハウスデータを含むベンチマークに対して,既製のLCMを適用する。
以下に示すように、パフォーマンスの悪い理由は、主に3つの特徴による。
論文 参考訳(メタデータ) (2024-09-03T16:37:45Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Making LLMs Work for Enterprise Data Tasks [4.233865241818131]
大規模言語モデル(LLM)は、プライベートデータエコシステムにおけるエンタープライズデータベーステーブルについてほとんど知らない。
LLMのパフォーマンスはトレーニングデータと結びついているので、エンタープライズデータベースの管理と分析タスクを改善する上で、いかに有用かが重要な疑問である。
論文 参考訳(メタデータ) (2024-07-22T21:16:59Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。