論文の概要: Augmenting text for spoken language understanding with Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.09390v1
- Date: Sun, 17 Sep 2023 22:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:52:43.841938
- Title: Augmenting text for spoken language understanding with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた音声言語理解のためのテキスト拡張
- Authors: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava,
Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
- Abstract要約: 対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
- 参考スコア(独自算出の注目度): 13.240782495441275
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spoken semantic parsing (SSP) involves generating machine-comprehensible
parses from input speech. Training robust models for existing application
domains represented in training data or extending to new domains requires
corresponding triplets of speech-transcript-semantic parse data, which is
expensive to obtain. In this paper, we address this challenge by examining
methods that can use transcript-semantic parse data (unpaired text) without
corresponding speech. First, when unpaired text is drawn from existing textual
corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways
to generate speech representations for unpaired text. Experiments on the STOP
dataset show that unpaired text from existing and new domains improves
performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we
consider the setting when unpaired text is not available in existing textual
corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired
text for existing and new domains. Experiments show that examples and words
that co-occur with intents can be used to generate unpaired text with Llama
2.0. Using the generated text with JAT and TTS for spoken semantic parsing
improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains
respectively.
- Abstract(参考訳): Spoken semantic parsing (SSP) は入力音声から機械理解可能なパースを生成する。
既存のアプリケーションドメインをトレーニングデータで表現したり、新しいドメインに拡張したりするための堅牢なモデルのトレーニングには、高コストな音声書き起こし構文解析データの対応する三つ子が必要である。
本稿では,対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)を利用できる手法を検討することで,この問題に対処する。
まず、既存のテキストコーパスからアンペアテキストを描画する場合、アンペアテキストの音声表現を生成する方法として、ジョイントオーディオテキスト(jat)とtext-to-speech(tts)を比較する。
STOPデータセットの実験では、既存のドメインと新しいドメインの未ペアテキストは、それぞれ絶対エクササイズマッチ(EM)で2%と30%パフォーマンスを改善している。
第二に、既存のテキストコーパスでは未ペアテキストが利用できない場合について考察する。
既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
実験によると、インテントと共起する例や単語はllama 2.0で非ペアテキストを生成するのに使うことができる。
JAT と TTS で生成されたテキストを音声意味解析に使用すると、STOP の EM は 1.4% と 2.6% に向上する。
関連論文リスト
- Written Term Detection Improves Spoken Term Detection [9.961529254621432]
本稿では、インデックスや検索を複雑にすることなく、未完成のテキストをE2E KWSに統合できるマルチタスク学習目標を提案する。
音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。
提案手法は, 多様な言語を対象とした検索性能を大幅に向上させるとともに, KWS の未実装テキストを効果的に活用できることを示す。
論文 参考訳(メタデータ) (2024-07-05T15:50:47Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。