論文の概要: Cross-lingual Data Augmentation for Document-grounded Dialog Systems in
Low Resource Languages
- arxiv url: http://arxiv.org/abs/2305.14949v1
- Date: Wed, 24 May 2023 09:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:34:29.886375
- Title: Cross-lingual Data Augmentation for Document-grounded Dialog Systems in
Low Resource Languages
- Title(参考訳): 低リソース言語における文書接地対話システムのための言語間データ拡張
- Authors: Qi Gou, Zehua Xia, Wenzhe Du
- Abstract要約: 本稿では,逆トレーニング検索 (Retriever and Re-ranker) と Fid (Fusion-in-decoder) ジェネレータを含む新しいパイプラインCLEM (Cross-Lingual Enhanced Model) を提案する。
また,ハイリソース言語をさらに活用するために,翻訳学習による多言語間のアライメントを実現する革新的なアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a framework to address the issue of data scarcity in
Document-Grounded Dialogue Systems(DGDS). Our model leverages high-resource
languages to enhance the capability of dialogue generation in low-resource
languages. Specifically, We present a novel pipeline CLEM (Cross-Lingual
Enhanced Model) including adversarial training retrieval (Retriever and
Re-ranker), and Fid (fusion-in-decoder) generator. To further leverage
high-resource language, we also propose an innovative architecture to conduct
alignment across different languages with translated training. Extensive
experiment results demonstrate the effectiveness of our model and we achieved
4th place in the DialDoc 2023 Competition. Therefore, CLEM can serve as a
solution to resource scarcity in DGDS and provide useful guidance for
multi-lingual alignment tasks.
- Abstract(参考訳): 本稿では,DGDS(Document-Grounded Dialogue Systems)におけるデータ不足問題に対処する枠組みを提案する。
我々のモデルは、低リソース言語における対話生成能力を高めるために、高リソース言語を活用している。
具体的には,新たなパイプラインclem(cross-lingual enhanced model)として,逆訓練検索(retriever and re-ranker)とfid(fusion-in-decoder)ジェネレータを提案する。
また,高リソース言語をさらに活用するために,様々な言語にまたがって翻訳訓練を行うための革新的なアーキテクチャを提案する。
広範な実験結果から,本モデルの有効性を実証し,dialdoc 2023コンペティションで4位となった。
したがって、CLEMはDGDSの資源不足に対する解決策として機能し、多言語アライメントタスクに有用なガイダンスを提供する。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Transferring BERT Capabilities from High-Resource to Low-Resource
Languages Using Vocabulary Matching [1.746529892290768]
本研究は、語彙マッチングを用いてBERT機能を高リソース言語から低リソース言語に転送する新しい手法を提案する。
我々はシレジア語とカシュビ語で実験を行い、目標言語が最小限の訓練データを持つ場合でもBERTモデルの性能向上のためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-22T09:49:26Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - An Empirical Study of Cross-Lingual Transferability in Generative
Dialogue State Tracker [33.2309643963072]
多言語事前学習セq2seqモデルを用いた言語間対話状態追跡システムの転送可能性について検討した。
また、我々のアプローチの低言語間移動可能性も調べ、調査と議論を行う。
論文 参考訳(メタデータ) (2021-01-27T12:45:55Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。