論文の概要: An Exploration of In-Context Learning for Speech Language Model
- arxiv url: http://arxiv.org/abs/2310.12477v1
- Date: Thu, 19 Oct 2023 05:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 16:46:19.897487
- Title: An Exploration of In-Context Learning for Speech Language Model
- Title(参考訳): 音声言語モデルのための文脈内学習の検討
- Authors: Ming-Hao Hsu, Kai-Wei Chang, Shang-Wen Li, Hung-yi Lee
- Abstract要約: インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の活用において重要な役割を担っている。
本研究は,テキストの監督を伴わない音声によるICLの探索を初めて提案する。
- 参考スコア(独自算出の注目度): 107.63817360836336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ever since the development of GPT-3 in the natural language processing (NLP)
field, in-context learning (ICL) has played an important role in utilizing
large language models (LLMs). By presenting the LM utterance-label
demonstrations at the input, the LM can accomplish few-shot learning without
relying on gradient descent or requiring explicit modification of its
parameters. This enables the LM to learn and adapt in a black-box manner.
Despite the success of ICL in NLP, little work is exploring the possibility of
ICL in speech processing. This study proposes the first exploration of ICL with
a speech LM without text supervision. We first show that the current speech LM
does not have the ICL capability. With the proposed warmup training, the speech
LM can, therefore, perform ICL on unseen tasks. In this work, we verify the
feasibility of ICL for speech LM on speech classification tasks.
- Abstract(参考訳): 自然言語処理(NLP)分野におけるGPT-3の開発以来、インコンテキスト学習(ICL)は大規模言語モデル(LLM)の利用において重要な役割を果たしてきた。
入力にLM発声ラベルのデモンストレーションを提示することにより、LMは勾配降下やパラメータの明示的な修正を必要とせずに、数発の学習を達成できる。
これにより、LMはブラックボックス方式で学習し、適応することができる。
NLP における ICL の成功にもかかわらず,音声処理における ICL の可能性を探る研究はほとんどない。
本研究は,テキストの監督を伴わない音声によるICLの最初の探索を提案する。
まず,現在の音声 LM には ICL 機能がないことを示す。
提案したウォームアップトレーニングにより、LMは見えないタスクに対してICLを実行することができる。
本研究では,音声分類タスクにおける音声lmに対するiclの有効性を検証する。
関連論文リスト
- In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。
我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。
これにより、LLMはテスト時にロボットの動作を直接予測できる。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing [35.31866559807704]
音声とテキスト間のモダリティアライメントは 未解決の問題です
本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。
この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-09-02T11:46:05Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。