論文の概要: Generating Data for Symbolic Language with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13917v1
- Date: Tue, 23 May 2023 10:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:58:42.958691
- Title: Generating Data for Symbolic Language with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたシンボリック言語のためのデータ生成
- Authors: Jiacheng Ye, Chengzu Li, Lingpeng Kong, Tao Yu
- Abstract要約: 自然言語処理のためのデータを生成するために,大規模言語モデル (LLM) が開発された。
本稿では,LLMを利用して様々なアノテーション抽出記号言語データを生成するSymGenを提案する。
課題モデルのトレーニングでは,人間の実演だけで生成されたデータは,人間の注釈付きデータの10倍以上の有効性を示す。
- 参考スコア(独自算出の注目度): 16.529863710055004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) bring not only performance but also
complexity, recent work has started to turn LLMs into data generators rather
than task inferencers, where another affordable task model is trained for
efficient deployment and inference. However, such an approach has primarily
been applied to natural language tasks and has not yet been explored for
symbolic language tasks with complex structured outputs (e.g., semantic parsing
and code generation). In this paper, we propose SymGen which utilizes LLMs for
generating various annotation-expensive symbolic language data. SymGen consists
of an informative prompt to steer generation and an agreement-based verifier to
improve data correctness. We conduct extensive experiments on six symbolic
language tasks across various settings. Compared with the LLMs, we demonstrate
the 1\%-sized task model can achieve comparable or better performance, largely
cutting inference and deployment costs. We also show that generated data with
only a few human demonstrations can be as effective as over 10 times the amount
of human-annotated data when training the task model, saving a considerable
amount of annotation effort. SymGen sheds new light on data generation for
complex tasks, and we release the code at
\href{https://github.com/HKUNLP/SymGen}{https://github.com/HKUNLP/SymGen}.
- Abstract(参考訳): 大規模言語モデル(llm)は、パフォーマンスだけでなく、複雑さも生み出すが、最近の作業は、タスク推論ではなく、llmをデータジェネレータにし始めている。
しかしながら、このようなアプローチは主に自然言語タスクに適用されており、複雑な構造化アウトプット(意味解析やコード生成など)を持つシンボリック言語タスクについてはまだ検討されていない。
本稿では,LLMを利用して様々なアノテーション抽出記号言語データを生成するSymGenを提案する。
SymGenは、データ正確性を改善するために、ステアジェネレーションに対する情報的プロンプトと合意に基づく検証から構成される。
我々は6つのシンボリック言語タスクを様々な設定で広範囲に実験する。
llmと比較して,1\%のタスクモデルが同等あるいは優れた性能を達成できることを実証し,主に推論とデプロイメントコストを削減した。
また,人間の実演数が少ない生成データは,タスクモデルをトレーニングする際の人間の注釈データ量の10倍以上の有効性を示し,大量のアノテーションの労力を節約できることを示した。
SymGenは複雑なタスクのためのデータ生成に新たな光を放ち、コードのリリースは \href{https://github.com/HKUNLP/SymGen}{https://github.com/HKUNLP/SymGen} である。
関連論文リスト
- CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Meta-Task Prompting Elicits Embedding from Large Language Models [57.50329659098592]
本稿では,新しい教師なし埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを提案する。
モデル微調整やタスク固有のエンジニアリングを必要とせずに、大規模言語モデルから高品質な文の埋め込みを生成する。
実験により, 各種メタタスクから平均化された埋め込みは, セマンティックテキスト類似度ベンチマーク上での競合性能を示すことを示した。
本研究は, 埋込抽出のための多用途, 資源効率のよい手法を提供する, 埋込生成のための新しいスケーリング法則を示唆する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T16:40:33Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - Synthetic Data Generation in Low-Resource Settings via Fine-Tuning of
Large Language Models [15.991777903345575]
大規模な言語モデルは、比較的少ないラベル付き例で下流タスクを一般化することができる。
あるいは、ラベル付きサンプルを十分に微調整すれば、より小さなモデルで特定のタスクを解くことができる。
我々は、より小さなモデルの下流性能を改善するために、微調整教師LEMを用いた微調整訓練データの合成データ生成について検討した。
論文 参考訳(メタデータ) (2023-10-02T11:49:05Z) - ReGen: Zero-Shot Text Classification via Training Data Generation with
Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。
9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文 参考訳(メタデータ) (2023-05-18T04:30:09Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。