論文の概要: Predicting the Target Word of Game-playing Conversations using a Low-Rank Dialect Adapter for Decoder Models
- arxiv url: http://arxiv.org/abs/2409.00358v1
- Date: Sat, 31 Aug 2024 05:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:23:54.160035
- Title: Predicting the Target Word of Game-playing Conversations using a Low-Rank Dialect Adapter for Decoder Models
- Title(参考訳): デコーダモデルに対する低ランクディレクトアダプタを用いたゲームプレイング会話のターゲット語予測
- Authors: Dipankar Srirag, Aditya Joshi, Jacob Eisenstein,
- Abstract要約: 我々は、LoRDDと呼ばれるアーキテクチャのデコーダモデルに方言アダプタの考え方を拡張した。
LoRDDはタスクアダプタと方言アダプタを組み合わせており、後者はMD-3からの擬似並列会話に対照的な学習を取り入れている。
両モデル(Mistral と Gemma)における en-IN 会話の結果, LoRDD は TWP の 4 つのベースラインを上回り, en-US とのパフォーマンスギャップは単語類似度で 12% ,精度で 25% 向上した。
- 参考スコア(独自算出の注目度): 16.289326589414404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dialect adapters that improve the performance of LLMs for NLU tasks on certain sociolects/dialects/national varieties ('dialects' for the sake of brevity) have been reported for encoder models. In this paper, we extend the idea of dialect adapters to decoder models in our architecture called LoRDD. Using MD-3, a publicly available dataset of word game-playing conversations between dialectal speakers, our task is Target Word Prediction (TWP) from a masked conversation. LoRDD combines task adapters and dialect adapters where the latter employ contrastive learning on pseudo-parallel conversations from MD-3. Our results for en-IN conversations on two models (Mistral and Gemma) show that LoRDD outperforms four baselines on TWP, while bridging the performance gap with en-US by 12% on word similarity and 25% on accuracy. The focused contribution of LoRDD is in its promise for dialect adaptation of decoder models.
- Abstract(参考訳): エンコーダモデルでは,特定のソシオレクト/方言/国産品種(「簡潔性のための方言」)におけるNLUタスクのLLMの性能を向上させるダイアレクトアダプタが報告されている。
本稿では,LoRDDと呼ばれるアーキテクチャのデコーダモデルに対して,方言アダプタの概念を拡張した。
MD-3は,方言話者間の単語ゲームプレイング会話のデータセットとして公開されており,その課題は,マスク付き会話からターゲットワード予測(TWP)である。
LoRDDはタスクアダプタと方言アダプタを組み合わせており、後者はMD-3からの擬似並列会話に対照的な学習を取り入れている。
両モデル(Mistral と Gemma)における en-IN 会話の結果, LoRDD は TWP の 4 つのベースラインを上回り, en-US とのパフォーマンスギャップは単語類似度で 12% ,精度で 25% 向上した。
LoRDDの貢献は、デコーダモデルの方言適応を約束することにある。
関連論文リスト
- An Unsupervised Dialogue Topic Segmentation Model Based on Utterance Rewriting [3.5399864027190366]
本研究では,Utterance Rewriting(UR)技術と教師なし学習アルゴリズムを組み合わせた,教師なし対話トピックセグメンテーション手法を提案する。
The proposed Discourse Rewriting Topic Model (UR-DTS) is significantly improves the accuracy of topic segmentation。
論文 参考訳(メタデータ) (2024-09-12T00:27:31Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Evaluating Dialect Robustness of Language Models via Conversation Understanding [2.8514881296685113]
私たちは「タブー」という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を使う。
目的語予測 (TWP) (textiti.e.$, predict the masked target word in a conversation) と目標語選択 (TWS) (textiti.e.$, select the most likely masked target word in a conversation) という2つの評価課題を定式化する。
私たちは、en-MV(en-USが方言情報を含むように変換される)とen-TR(方言情報を含む)の2つのサブセットを作成します。
論文 参考訳(メタデータ) (2024-05-09T11:38:23Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Adapting Task-Oriented Dialogue Models for Email Conversations [4.45709593827781]
本稿では,対話モデルの最新開発を長文会話に適用できる効果的な伝達学習フレームワーク(EMToD)を提案する。
提案するEMToDフレームワークは,事前学習した言語モデルに対する意図検出性能を45%向上し,タスク指向の電子メール会話において,事前学習した対話モデルに対する意図検出性能を30%向上することを示す。
論文 参考訳(メタデータ) (2022-08-19T16:41:34Z) - TOD-DA: Towards Boosting the Robustness of Task-oriented Dialogue
Modeling on Spoken Conversations [24.245354500835465]
本稿では,音声対話におけるタスク指向対話モデリングの堅牢性を高めるために,新しいモデルに依存しないデータ拡張パラダイムを提案する。
本手法は,音声対話におけるタスク指向対話モデリングのベンチマークであるDSTC10 Track2の両タスクにおいて,第1位となった。
論文 参考訳(メタデータ) (2021-12-23T10:04:25Z) - A Tailored Pre-Training Model for Task-Oriented Dialog Generation [60.05269529832447]
タスク指向対話システムのための事前訓練された役割交替言語モデル(PRAL)を提案する。
13個の既存のデータセットをクリーニングすることでタスク指向の対話事前学習データセットを導入する。
その結果,PRALは最先端の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-04-24T09:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。