論文の概要: Language Models Enable Simple Systems for Generating Structured Views of
Heterogeneous Data Lakes
- arxiv url: http://arxiv.org/abs/2304.09433v2
- Date: Thu, 20 Apr 2023 04:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:55:56.659449
- Title: Language Models Enable Simple Systems for Generating Structured Views of
Heterogeneous Data Lakes
- Title(参考訳): 不均一データレイクの構造ビュー生成のための簡易システムを実現する言語モデル
- Authors: Simran Arora and Brandon Yang and Sabri Eyuboglu and Avanika Narayan
and Andrew Hojel and Immanuel Trummer and Christopher R\'e
- Abstract要約: EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
- 参考スコア(独自算出の注目度): 15.214583657626697
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A long standing goal of the data management community is to develop general,
automated systems that ingest semi-structured documents and output queryable
tables without human effort or domain specific customization. Given the sheer
variety of potential documents, state-of-the art systems make simplifying
assumptions and use domain specific training. In this work, we ask whether we
can maintain generality by using large language models (LLMs). LLMs, which are
pretrained on broad data, can perform diverse downstream tasks simply
conditioned on natural language task descriptions.
We propose and evaluate EVAPORATE, a simple, prototype system powered by
LLMs. We identify two fundamentally different strategies for implementing this
system: prompt the LLM to directly extract values from documents or prompt the
LLM to synthesize code that performs the extraction. Our evaluations show a
cost-quality tradeoff between these two approaches. Code synthesis is cheap,
but far less accurate than directly processing each document with the LLM. To
improve quality while maintaining low cost, we propose an extended code
synthesis implementation, EVAPORATE-CODE+, which achieves better quality than
direct extraction. Our key insight is to generate many candidate functions and
ensemble their extractions using weak supervision. EVAPORATE-CODE+ not only
outperforms the state-of-the art systems, but does so using a sublinear pass
over the documents with the LLM. This equates to a 110x reduction in the number
of tokens the LLM needs to process, averaged across 16 real-world evaluation
settings of 10k documents each.
- Abstract(参考訳): データ管理コミュニティの長年の目標は、半構造化ドキュメントを取り込み、人間の努力やドメイン固有のカスタマイズなしにクエリ可能なテーブルを出力する一般的な自動化システムを開発することである。
さまざまな潜在的なドキュメントを考えると、最先端のアートシステムは仮定を単純化し、ドメイン固有のトレーニングを使用します。
本研究では,大規模言語モデル(LLM)を用いて汎用性を維持できるかどうかを問う。
幅広いデータで事前トレーニングされたllmは、自然言語タスク記述に基づいて単純にさまざまな下流タスクを実行することができる。
LLMを用いた簡易プロトタイプシステムEVAPORATEを提案し評価する。
本システムを実装するための基本的な戦略は, LLMに文書から直接値を取り出すように促すか, LLMに抽出を実行するコードを合成させるかの2つである。
この2つのアプローチの間には,コスト品質のトレードオフがある。
コード合成は安価だが、LSMで各文書を直接処理するよりもはるかに正確ではない。
コストを抑えつつ品質を向上させるために,直接抽出よりも優れた品質を実現する拡張コード合成実装EVAPORATE-CODE+を提案する。
我々の重要な洞察は、多くの候補関数を生成し、弱い監督力を使って抽出を組み立てることである。
EVAPORATE-CODE+は最先端技術システムよりも優れるだけでなく、LCMでドキュメントをサブ線形パスする。
これは、LLMが処理しなければならないトークンの数を110倍に減らし、それぞれの10kドキュメントの16の実際の評価設定で平均化している。
関連論文リスト
- Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models [28.105271954633682]
本稿では,Large Language Models (LLMs) へのリーク情報の再ランク付けのための,Q-PEFT (Q-PEFT) アプローチを提案する。
クエリを使用して、入力ドキュメントから上位$kのトークンを抽出し、コンテキストのヒントとして機能します。
検索機構をマルチヘッドアテンション層に置き換えて、エンドツーエンドのトレーニングを実現し、文書中のすべてのトークンをカバーすることにより、Q-PEFTをさらに強化する。
論文 参考訳(メタデータ) (2024-04-06T06:44:41Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LMDX: Language Model-based Document Information Extraction and
Localization [15.686075399512534]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
論文 参考訳(メタデータ) (2023-09-19T22:32:56Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。