論文の概要: Style Attuned Pre-training and Parameter Efficient Fine-tuning for
Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2010.04355v1
- Date: Fri, 9 Oct 2020 03:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 03:54:10.063967
- Title: Style Attuned Pre-training and Parameter Efficient Fine-tuning for
Spoken Language Understanding
- Title(参考訳): 音声言語理解のためのスタイル調整事前学習とパラメータ最適化
- Authors: Jin Cao, Jun Wang, Wael Hamza, Kelly Vanee, Shang-Wen Li
- Abstract要約: 音声言語理解学習のための新しいフレームワークを提案する。
このフレームワークは会話言語モデリング(CLM)事前学習タスクとライトエンコーダアーキテクチャで構成されている。
このフレームワークでは、Alexaの内部データセットと2つのパブリックデータセット上での最先端のSLU結果のパフォーマンスにマッチし、1タスクあたりのパラメータは4.4%に過ぎません。
- 参考スコア(独自算出の注目度): 19.105304214638075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural models have yielded state-of-the-art results in deciphering spoken
language understanding (SLU) problems; however, these models require a
significant amount of domain-specific labeled examples for training, which is
prohibitively expensive. While pre-trained language models like BERT have been
shown to capture a massive amount of knowledge by learning from unlabeled
corpora and solve SLU using fewer labeled examples for adaption, the encoding
of knowledge is implicit and agnostic to downstream tasks. Such encoding
results in model inefficiencies in parameter usage: an entirely new model is
required for every domain. To address these challenges, we introduce a novel
SLU framework, comprising a conversational language modeling (CLM) pre-training
task and a light encoder architecture. The CLM pre-training enables networks to
capture the representation of the language in conversation style with the
presence of ASR errors. The light encoder architecture separates the shared
pre-trained networks from the mappings of generally encoded knowledge to
specific domains of SLU, allowing for the domain adaptation to be performed
solely at the light encoder and thus increasing efficiency. With the framework,
we match the performance of state-of-the-art SLU results on Alexa internal
datasets and on two public ones (ATIS, SNIPS), adding only 4.4% parameters per
task.
- Abstract(参考訳): ニューラルモデルは、音声言語理解(SLU)問題の解読に最先端の結果をもたらすが、これらのモデルは、トレーニングにかなりの量のドメイン固有のラベル付き例を必要とする。
BERTのような事前学習された言語モデルは、ラベルのないコーパスから学習してSLUを解くことで膨大な量の知識を捉えることが示されているが、知識の符号化は暗黙的であり、下流のタスクに非依存である。
このようなエンコーディングはパラメータの使用においてモデルの非効率をもたらす: ドメインごとに全く新しいモデルが必要である。
これらの課題に対処するために,clm(conversational language modeling)事前学習タスクとライトエンコーダアーキテクチャからなる新しいsluフレームワークを提案する。
CLM事前トレーニングでは、ASRエラーの存在下で会話スタイルで言語表現をキャプチャすることができる。
光エンコーダアーキテクチャは、共有事前学習されたネットワークを、一般に符号化された知識のマッピングからSLUの特定のドメインに分離し、光エンコーダのみでドメイン適応を行うことができ、効率が向上する。
このフレームワークでは、Alexaの内部データセットと2つのパブリックデータセット(ATIS、SNIPS)上での最先端のSLU結果のパフォーマンスにマッチし、タスク毎に4.4%のパラメータしか追加できません。
関連論文リスト
- DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning [13.601154787754046]
DRCapはデータ効率が高く柔軟なゼロショットオーディオキャプションシステムである。
トレーニングにはテキストのみのデータが必要で、微調整を加えることなく、新しいドメインに迅速に適応できる。
論文 参考訳(メタデータ) (2024-10-12T10:21:00Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。
複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文 参考訳(メタデータ) (2023-09-27T06:33:29Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。