論文の概要: Building Dialogue Understanding Models for Low-resource Language Indonesian from Scratch
- arxiv url: http://arxiv.org/abs/2410.18430v1
- Date: Thu, 24 Oct 2024 04:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:08.219950
- Title: Building Dialogue Understanding Models for Low-resource Language Indonesian from Scratch
- Title(参考訳): Scratchによるインドネシア語低リソース言語のための対話理解モデルの構築
- Authors: Donglin Di, Weinan Zhang, Yue Zhang, Fanglin Wang,
- Abstract要約: 低リソース言語対話データの欠如を回避するために,Bi-Confidence-Frequency Cross-Lingual Transfer framework (BiCF)を提案する。
私たちのフレームワークは、手動で注釈付けされたインドネシアのさまざまなスケールで、信頼性とコスト効率を向上します。
- 参考スコア(独自算出の注目度): 31.50694642284321
- License:
- Abstract: Making use of off-the-shelf resources of resource-rich languages to transfer knowledge for low-resource languages raises much attention recently. The requirements of enabling the model to reach the reliable performance lack well guided, such as the scale of required annotated data or the effective framework. To investigate the first question, we empirically investigate the cost-effectiveness of several methods to train the intent classification and slot-filling models for Indonesia (ID) from scratch by utilizing the English data. Confronting the second challenge, we propose a Bi-Confidence-Frequency Cross-Lingual transfer framework (BiCF), composed by ``BiCF Mixing'', ``Latent Space Refinement'' and ``Joint Decoder'', respectively, to tackle the obstacle of lacking low-resource language dialogue data. Extensive experiments demonstrate our framework performs reliably and cost-efficiently on different scales of manually annotated Indonesian data. We release a large-scale fine-labeled dialogue dataset (ID-WOZ) and ID-BERT of Indonesian for further research.
- Abstract(参考訳): リソース豊富な言語の既製のリソースを低リソース言語の知識伝達に活用することは、近年注目を集めている。
モデルが信頼性の高いパフォーマンスに到達するための要件には、必要な注釈付きデータのスケールや効果的なフレームワークなど、十分にガイドされていない。
最初の質問を調査するために,インドネシアにおける意図分類とスロット充足モデルをスクラッチから学習するためのいくつかの手法の費用対効果を,英語データを用いて実証的に検討した。
第2の課題に先立ち,低リソース言語対話データの欠如に対処するために,‘BiCF Mixing’’, ‘`Latent Space Refinement', ‘`Joint Decoder'’ で構成したBiCF(Bi-Confidence-Frequency Cross-Lingual Transfer framework)を提案する。
我々のフレームワークは、手動で注釈付けされたインドネシアのさまざまなスケールで、確実かつコスト効率よく動作します。
我々はインドネシアのID-WOZとID-BERTを大規模にリリースし、さらなる研究を行った。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Cross-lingual Data Augmentation for Document-grounded Dialog Systems in
Low Resource Languages [0.0]
本稿では,逆トレーニング検索 (Retriever and Re-ranker) と Fid (Fusion-in-decoder) ジェネレータを含む新しいパイプラインCLEM (Cross-Lingual Enhanced Model) を提案する。
また,ハイリソース言語をさらに活用するために,翻訳学習による多言語間のアライメントを実現する革新的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-24T09:40:52Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。