Fugu-MT 論文翻訳(概要): Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks

論文の概要: Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks

arxiv url: http://arxiv.org/abs/2310.12477v2
Date: Sat, 15 Jun 2024 14:13:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 12:20:53.195088
Title: Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks
Title（参考訳）: 音声分類課題に対するテキストレス音声モデルの文脈内学習の探索
Authors: Ming-Hao Hsu, Kai-Wei Chang, Shang-Wen Li, Hung-yi Lee,
Abstract要約: インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
参考スコア（独自算出の注目度）: 98.5311231450689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ever since the development of GPT-3 in the natural language processing (NLP) field, in-context learning (ICL) has played an essential role in utilizing large language models (LLMs). By presenting the LM utterance-label demonstrations at the input, the LM can accomplish few-shot learning without relying on gradient descent or requiring explicit modification of its parameters. This enables the LM to perform various downstream tasks in a black-box manner. Despite the success of ICL in NLP, little work is exploring the possibility of ICL in speech processing. This study is the first work exploring ICL for speech classification tasks with textless speech LM. We first show that the current speech LM lacks the ICL capability. We then perform warmup training on the speech LM, equipping the LM with demonstration learning capability. This paper explores and proposes the first speech LM capable of performing unseen classification tasks in an ICL manner.
Abstract（参考訳）: 自然言語処理(NLP)分野におけるGPT-3の開発以来、インコンテキスト学習(ICL)は大規模言語モデル(LLM)の利用において重要な役割を担ってきた。入力にLM発声ラベルのデモンストレーションを提示することにより、LMは勾配降下やパラメータの明示的な修正を必要とせずに、数発の学習を達成できる。これにより、LMはブラックボックス方式で様々な下流タスクを実行することができる。 NLP における ICL の成功にもかかわらず,音声処理における ICL の可能性を探る研究はほとんどない。本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。まず、現在の音声LMにはICL機能がないことを示す。次に、音声LMでウォームアップトレーニングを行い、実演学習機能を備えた。本稿では、ICL方式で未知の分類タスクを実行できる最初の音声LMについて検討し、提案する。

関連論文リスト

ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
テキスト対応音声トークン化と埋め込み(TASTE)について紹介する。 TASTEは、音声トークンと対応するテキストの書き起こしをトークン化段階で整列させることにより、モダリティギャップに直接対処する手法である。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。これにより、LLMはテスト時にロボットの動作を直接予測できる。
論文参考訳（メタデータ） (2024-10-16T17:56:49Z)
Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文参考訳（メタデータ） (2024-10-04T04:34:24Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する一般的な仮説の一つは、タスク選択によるICLの説明である。もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文参考訳（メタデータ） (2024-06-06T16:15:34Z)
BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing [35.31866559807704]
音声とテキスト間のモダリティアライメントは未解決の問題です本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文参考訳（メタデータ） (2023-09-02T11:46:05Z)
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文参考訳（メタデータ） (2023-07-13T02:31:55Z)
Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文参考訳（メタデータ） (2023-06-08T07:10:39Z)
What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。 ICLがデモを利用する2つの方法の特徴付けを行う。 TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文参考訳（メタデータ） (2023-05-16T18:05:19Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。