論文の概要: LLMs with User-defined Prompts as Generic Data Operators for Reliable
Data Processing
- arxiv url: http://arxiv.org/abs/2312.16351v1
- Date: Tue, 26 Dec 2023 23:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 19:50:10.387536
- Title: LLMs with User-defined Prompts as Generic Data Operators for Reliable
Data Processing
- Title(参考訳): 信頼性データ処理のためのジェネリックデータ演算子としてのユーザ定義プロンプト付きLLM
- Authors: Luyi Ma, Nikhil Thakurdesai, Jiao Chen, Jianpeng Xu, Evren Korpeoglu,
Sushant Kumar, Kannan Achan
- Abstract要約: 汎用データ演算子(LLM-GDO)として機能する大規模言語モデル(LLM)を提案する。
LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。
ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。
- 参考スコア(独自算出の注目度): 13.901862478287509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data processing is one of the fundamental steps in machine learning pipelines
to ensure data quality. Majority of the applications consider the user-defined
function (UDF) design pattern for data processing in databases. Although the
UDF design pattern introduces flexibility, reusability and scalability, the
increasing demand on machine learning pipelines brings three new challenges to
this design pattern -- not low-code, not dependency-free and not
knowledge-aware. To address these challenges, we propose a new design pattern
that large language models (LLMs) could work as a generic data operator
(LLM-GDO) for reliable data cleansing, transformation and modeling with their
human-compatible performance. In the LLM-GDO design pattern, user-defined
prompts (UDPs) are used to represent the data processing logic rather than
implementations with a specific programming language. LLMs can be centrally
maintained so users don't have to manage the dependencies at the run-time.
Fine-tuning LLMs with domain-specific data could enhance the performance on the
domain-specific tasks which makes data processing knowledge-aware. We
illustrate these advantages with examples in different data processing tasks.
Furthermore, we summarize the challenges and opportunities introduced by LLMs
to provide a complete view of this design pattern for more discussions.
- Abstract(参考訳): データ処理は、データ品質を保証するための機械学習パイプラインの基本ステップの1つである。
アプリケーションの大部分は、データベースのデータ処理のためのユーザ定義関数(UDF)設計パターンを考慮する。
UDFデザインパターンは柔軟性、再利用性、スケーラビリティを導入しているが、機械学習パイプラインへの需要の増加は、このデザインパターンに3つの新しい課題をもたらしている。
これらの課題に対処するために,大規模言語モデル(LLM)が信頼性の高いデータ浄化,変換,モデリングを行う汎用データ演算子(LLM-GDO)として機能する新しい設計パターンを提案する。
LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。
LLMは集中的にメンテナンスできるので、ユーザは実行時に依存関係を管理する必要がない。
ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。
我々は、これらの利点を様々なデータ処理タスクで例示する。
さらに,LLMが導入した課題と機会を要約して,このデザインパターンの全体像を提供し,さらなる議論を行う。
関連論文リスト
- Federated Transfer Learning with Task Personalization for Condition Monitoring in Ultrasonic Metal Welding [3.079885946230076]
本稿ではトランスファーラーニングについて述べる。
分散分散学習フレームワークでデータ機能を提供するFTLTP(Federated Task Task Architecture)。
FTL-TPフレームワークは、様々な製造アプリケーションに容易に適用できる。
論文 参考訳(メタデータ) (2024-04-20T05:31:59Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - INTERS: Unlocking the Power of Large Language Models in Search with
Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as
Programmers [61.37260856941595]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - Harnessing Scalable Transactional Stream Processing for Managing Large
Language Models [Vision] [4.553891255178496]
大規模言語モデル(LLM)は、広範囲のアプリケーションにまたがって素晴らしいパフォーマンスを示している。
本稿では,トランザクションストリーム処理(TSP)とLLM管理を統合する革命的フレームワークであるTStreamLLMを紹介する。
リアルタイムの患者モニタリングやインテリジェントなトラフィック管理といった実践的なユースケースを通じて、その可能性を示す。
論文 参考訳(メタデータ) (2023-07-17T04:01:02Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。