論文の概要: Add Noise, Tasks, or Layers? MaiNLP at the VarDial 2025 Shared Task on Norwegian Dialectal Slot and Intent Detection
- arxiv url: http://arxiv.org/abs/2501.03870v1
- Date: Tue, 07 Jan 2025 15:36:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:47.659954
- Title: Add Noise, Tasks, or Layers? MaiNLP at the VarDial 2025 Shared Task on Norwegian Dialectal Slot and Intent Detection
- Title(参考訳): ノイズ, タスク, レイヤの追加について : ノルウェー方言スロットとインテント検出の共有タスク(Vardial 2025)におけるMaiNLP
- Authors: Verena Blaschke, Felicia Körner, Barbara Plank,
- Abstract要約: スロットとインテント検出は、古典的な自然言語理解タスクである。
低リソースシナリオに対する多くのアプローチは、まだ方言SIDデータには適用されていない。
ノルウェー品種のスロットおよびインテント検出におけるVarDial 2025共有タスクに参加する。
- 参考スコア(独自算出の注目度): 22.89563355840371
- License:
- Abstract: Slot and intent detection (SID) is a classic natural language understanding task. Despite this, research has only more recently begun focusing on SID for dialectal and colloquial varieties. Many approaches for low-resource scenarios have not yet been applied to dialectal SID data, or compared to each other on the same datasets. We participate in the VarDial 2025 shared task on slot and intent detection in Norwegian varieties, and compare multiple set-ups: varying the training data (English, Norwegian, or dialectal Norwegian), injecting character-level noise, training on auxiliary tasks, and applying Layer Swapping, a technique in which layers of models fine-tuned on different datasets are assembled into a model. We find noise injection to be beneficial while the effects of auxiliary tasks are mixed. Though some experimentation was required to successfully assemble a model from layers, it worked surprisingly well; a combination of models trained on English and small amounts of dialectal data produced the most robust slot predictions. Our best models achieve 97.6% intent accuracy and 85.6% slot F1 in the shared task.
- Abstract(参考訳): スロット・アンド・インテント検出(SID)は古典的な自然言語理解タスクである。
それにもかかわらず、最近の研究は、方言および口語品種のSIDに焦点を合わせ始めたばかりである。
低リソースシナリオに対する多くのアプローチは、方言のSIDデータにはまだ適用されていない。
ノルウェーの品種におけるスロットとインテントの検出に関するVarDial 2025の共有タスクに参加し、トレーニングデータ(英語、ノルウェー語、または方言のノルウェー語)の変化、文字レベルのノイズ注入、補助タスクのトレーニング、レイヤースワッピング(Layer Swapping)の適用など、複数のセットアップを比較した。
補助作業の効果が混合されている間、ノイズ注入が有用であることがわかった。
いくつかの実験では層からモデルを組み立てる必要があったが、驚くほどうまく機能し、英語で訓練されたモデルと少量の方言データの組み合わせは最も堅牢なスロット予測を生み出した。
ベストモデルでは97.6%の意図精度と85.6%のスロットF1を共有タスクで達成しています。
関連論文リスト
- Zero-Shot Slot and Intent Detection in Low-Resource Languages [7.279730418361996]
タスク指向対話システムにおける音声および自然言語理解において,インテント検出とスロットフィリングは重要なタスクである。
幅広いモデルと設定を用いてスロット・アンド・インテント検出(SID)タスクについて検討する。
我々の最良のモデルは、両方のSIDタスクにおいて、大きなマージン(+30 F1ポイント)でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-04-26T05:10:12Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Combining Deep Learning and String Kernels for the Localization of Swiss
German Tweets [28.497747521078647]
2番目のサブタスクは、約3万のスイスのドイツのJodelからなるデータセットをターゲットにしています。
我々は、このタスクを2重回帰問題とみなし、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを採用している。
実験結果から,文字列カーネルに基づく手作りモデルの方が,ディープラーニングのアプローチよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-10-07T19:16:45Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。