論文の概要: Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2004.14069v2
- Date: Fri, 8 May 2020 13:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:41:45.800952
- Title: Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension
- Title(参考訳): 多言語機械読解における回答境界検出の強化
- Authors: Fei Yuan, Linjun Shou, Xuanyu Bai, Ming Gong, Yaobo Liang, Nan Duan,
Yan Fu, Daxin Jiang
- Abstract要約: そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
- 参考スコア(独自算出の注目度): 86.1617182312817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual pre-trained models could leverage the training data from a rich
source language (such as English) to improve performance on low resource
languages. However, the transfer quality for multilingual Machine Reading
Comprehension (MRC) is significantly worse than sentence classification tasks
mainly due to the requirement of MRC to detect the word level answer boundary.
In this paper, we propose two auxiliary tasks in the fine-tuning stage to
create additional phrase boundary supervision: (1) A mixed MRC task, which
translates the question or passage to other languages and builds cross-lingual
question-passage pairs; (2) A language-agnostic knowledge masking task by
leveraging knowledge phrases mined from web. Besides, extensive experiments on
two cross-lingual MRC datasets show the effectiveness of our proposed approach.
- Abstract(参考訳): 多言語事前学習モデルでは、豊富なソース言語(英語など)からのトレーニングデータを活用して、低リソース言語のパフォーマンスを向上させることができる。
しかし、多言語機械読解理解(MRC)の伝達品質は、主に単語レベル応答境界を検出するためにMRCを必要とするため、文分類タスクよりも著しく劣っている。
本稿では,(1)質問文を他の言語に翻訳し,言語間問合せペアを構築する混合mrcタスク,(2) web から抽出された知識句を活用した言語非依存の知識マスキングタスクという2つの補助タスクを提案する。
さらに,2つの言語間MCCデータセットに対する広範な実験により,提案手法の有効性が示された。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for
Cross-Lingual Machine Reading Comprehension [32.37236167127796]
X-STAは言語間機械読解のための新しいアプローチである。
我々は注意深い教師を利用して、ソース言語の回答スパンをターゲットの回答出力空間に微妙に転送する。
改良されたクロスアテンションブロックとしてグラディエント・ディサンタングルド・ナレッジ・シェアリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T07:20:37Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。