論文の概要: Parameter Efficient Diverse Paraphrase Generation Using Sequence-Level Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2404.12596v1
- Date: Fri, 19 Apr 2024 02:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:24:58.656358
- Title: Parameter Efficient Diverse Paraphrase Generation Using Sequence-Level Knowledge Distillation
- Title(参考訳): 逐次レベル知識蒸留を用いたパラメータ効率の良い多元パラフレーズ生成
- Authors: Lasal Jayawardena, Prasan Yapa,
- Abstract要約: 自然言語生成(NLG)の分野は、主にLarge Language Models(LLM)の導入により、急激な急増を経験した。
これらのモデルは、自然言語処理および生成ドメイン内の様々な領域において、最も効果的なパフォーマンスを示してきた。
しかし、パラフレージングのようなドメイン固有のタスクへの応用は、重大な課題を提示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past year, the field of Natural Language Generation (NLG) has experienced an exponential surge, largely due to the introduction of Large Language Models (LLMs). These models have exhibited the most effective performance in a range of domains within the Natural Language Processing and Generation domains. However, their application in domain-specific tasks, such as paraphrasing, presents significant challenges. The extensive number of parameters makes them difficult to operate on commercial hardware, and they require substantial time for inference, leading to high costs in a production setting. In this study, we tackle these obstacles by employing LLMs to develop three distinct models for the paraphrasing field, applying a method referred to as sequence-level knowledge distillation. These distilled models are capable of maintaining the quality of paraphrases generated by the LLM. They demonstrate faster inference times and the ability to generate diverse paraphrases of comparable quality. A notable characteristic of these models is their ability to exhibit syntactic diversity while also preserving lexical diversity, features previously uncommon due to existing data quality issues in datasets and not typically observed in neural-based approaches. Human evaluation of our models shows that there is only a 4% drop in performance compared to the LLM teacher model used in the distillation process, despite being 1000 times smaller. This research provides a significant contribution to the NLG field, offering a more efficient and cost-effective solution for paraphrasing tasks.
- Abstract(参考訳): 過去1年間、自然言語生成(NLG)の分野は、大部分がLLM(Large Language Models)の導入による急激な急増を経験した。
これらのモデルは、自然言語処理および生成ドメイン内の様々な領域において、最も効果的なパフォーマンスを示してきた。
しかし、パラフレージングのようなドメイン固有のタスクへの応用は、重大な課題を提示している。
膨大な数のパラメータが商用ハードウェア上での運用を難しくし、推論にかなりの時間を要するため、生産環境では高いコストがかかる。
本研究では, LLMを用いてパラフレージング分野の3つの異なるモデルを構築し, シーケンシャルレベルの知識蒸留法を適用した。
これらの蒸留モデルは、LLMによって生成されるパラフレーズの品質を維持することができる。
より高速な推論時間と、同等の品質の多様なパラフレーズを生成する能力を示す。
これらのモデルの顕著な特徴は、構文的多様性を示すと同時に、語彙的多様性を保存する能力である。
以上の結果から, 蒸留工程で使用するLLM教師モデルと比較すると, 1000倍小さいにもかかわらず, 性能は4%しか低下しないことがわかった。
この研究は NLG の分野に多大な貢献をもたらし、より効率的で費用対効果の高いパラフレーズ処理ソリューションを提供する。
関連論文リスト
- Exploring the Benefits of Domain-Pretraining of Generative Large Language Models for Chemistry [5.4665365335928024]
我々は、科学分野におけるオフ・ザ・シェルフとより標的となる基礎モデルを活用することのトレードオフについて検討する。
本研究は, ある科学領域, 化学領域に対するドメイン内事前学習の利点を考察し, ゼロショットおよび少数ショットプロンプトを用いたオープンソースオフザシェルフモデルと比較する。
その結果、ドメイン内ベースモデルではゼロショット設定でドメイン内タスクを合理的に実行することができるだけでなく、命令の微調整によるさらなる適応は、化学固有のタスクに顕著なパフォーマンスをもたらすことがわかった。
論文 参考訳(メタデータ) (2024-11-05T22:45:10Z) - LLMR: Knowledge Distillation with a Large Language Model-Induced Reward [24.455147056857356]
大規模言語モデルは、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを示すようになった。
しかし、これらのモデルは一般的に計算コストが高く、資源制約のある環境では展開が困難である。
大規模言語モデルから誘導される報酬関数に基づく新しい知識蒸留(KD)法であるLLMRを提案する。
論文 参考訳(メタデータ) (2024-09-19T06:27:58Z) - Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。
我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文 参考訳(メタデータ) (2024-05-08T03:57:45Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。