論文の概要: Transfer-Free Data-Efficient Multilingual Slot Labeling
- arxiv url: http://arxiv.org/abs/2305.13528v2
- Date: Sun, 12 Nov 2023 10:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:52:44.574596
- Title: Transfer-Free Data-Efficient Multilingual Slot Labeling
- Title(参考訳): 転送不要データ効率多言語スロットラベリング
- Authors: Evgeniia Razumovskaia, Ivan Vuli\'c, Anna Korhonen
- Abstract要約: スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
- 参考スコア(独自算出の注目度): 82.02076369811402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slot labeling (SL) is a core component of task-oriented dialogue (ToD)
systems, where slots and corresponding values are usually language-, task- and
domain-specific. Therefore, extending the system to any new
language-domain-task configuration requires (re)running an expensive and
resource-intensive data annotation process. To mitigate the inherent data
scarcity issue, current research on multilingual ToD assumes that sufficient
English-language annotated data are always available for particular tasks and
domains, and thus operates in a standard cross-lingual transfer setup. In this
work, we depart from this often unrealistic assumption. We examine challenging
scenarios where such transfer-enabling English annotated data cannot be
guaranteed, and focus on bootstrapping multilingual data-efficient slot
labelers in transfer-free scenarios directly in the target languages without
any English-ready data. We propose a two-stage slot labeling approach (termed
TWOSL) which transforms standard multilingual sentence encoders into effective
slot labelers. In Stage 1, relying on SL-adapted contrastive learning with only
a handful of SL-annotated examples, we turn sentence encoders into
task-specific span encoders. In Stage 2, we recast SL from a token
classification into a simpler, less data-intensive span classification task.
Our results on two standard multilingual TOD datasets and across diverse
languages confirm the effectiveness and robustness of TWOSL. It is especially
effective for the most challenging transfer-free few-shot setups, paving the
way for quick and data-efficient bootstrapping of multilingual slot labelers
for ToD.
- Abstract(参考訳): スロットラベリング(SL)はタスク指向対話(ToD)システムの中核的なコンポーネントであり、スロットと対応する値は通常言語、タスク、ドメイン固有である。
したがって、システムを新しい言語-ドメイン-タスク構成に拡張するには、高価でリソース集約的なデータアノテーションプロセスを実行する必要がある。
固有データ不足の問題を緩和するため、現在の多言語ToDの研究は、英語の注釈付きデータが特定のタスクやドメインで常に利用できると仮定し、標準の言語間転送設定で動作している。
この作業では、このしばしば非現実的な仮定から離れます。
本研究は, 英語を読まない言語で, 転送不要なシナリオにおいて, 複数言語のデータ効率の高いスロットラベルをブートストラップすることに重点を置いている。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
段階1では、SL適応型コントラスト学習に頼り、少数のSL注釈付き例で、文エンコーダをタスク固有のスパンエンコーダに変換する。
ステージ2では、SLをトークン分類から、より単純でデータ集約の少ないスパン分類タスクに再キャストします。
本研究は,TWOSLの有効性とロバスト性を確認するために,標準多言語TODデータセットと多言語にわたって行った。
特に、転送不要な複数ショットのセットアップにおいて、ToD用の多言語スロットラベルの高速でデータ効率のよいブートストラップを実現するのに有効である。
関連論文リスト
- SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models [23.522223369054437]
Self-Supervised Prompting (SSP) はゼロラベルのクロスリンガルトランスファー(0-CLT)の設定に適した新しいICLアプローチである。
SSP は、LLM がテキスト内例がターゲット言語からのものである場合、より正確なラベルを出力する、というキーオブザーバーに基づいている。
SSPは、0-CLTセットアップにおいて、既存のSOTAの微調整とプロンプトベースのベースラインを強く上回る。
論文 参考訳(メタデータ) (2024-06-27T04:21:59Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。