論文の概要: Revealing Weaknesses of Vietnamese Language Models Through Unanswerable
Questions in Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2303.13355v1
- Date: Thu, 16 Mar 2023 20:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 02:32:11.958763
- Title: Revealing Weaknesses of Vietnamese Language Models Through Unanswerable
Questions in Machine Reading Comprehension
- Title(参考訳): 機械読解における疑わしい質問によるベトナム語モデルの弱さの解明
- Authors: Son Quoc Tran, Phong Nguyen-Thuan Do, Kiet Van Nguyen, Ngan Luu-Thuy
Nguyen
- Abstract要約: 本稿では,現在のベトナム語モノリンガルモデルの言語弱さと強みを包括的に分析する。
またベトナムのMachine Readingベンチマークにおけるアーティファクトの存在を明らかにした。
提案した修正は,解決不可能な質問の品質向上に役立つ。
- 参考スコア(独自算出の注目度): 2.7528170226206443
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Although the curse of multilinguality significantly restricts the language
abilities of multilingual models in monolingual settings, researchers now still
have to rely on multilingual models to develop state-of-the-art systems in
Vietnamese Machine Reading Comprehension. This difficulty in researching is
because of the limited number of high-quality works in developing Vietnamese
language models. In order to encourage more work in this research field, we
present a comprehensive analysis of language weaknesses and strengths of
current Vietnamese monolingual models using the downstream task of Machine
Reading Comprehension. From the analysis results, we suggest new directions for
developing Vietnamese language models. Besides this main contribution, we also
successfully reveal the existence of artifacts in Vietnamese Machine Reading
Comprehension benchmarks and suggest an urgent need for new high-quality
benchmarks to track the progress of Vietnamese Machine Reading Comprehension.
Moreover, we also introduced a minor but valuable modification to the process
of annotating unanswerable questions for Machine Reading Comprehension from
previous work. Our proposed modification helps improve the quality of
unanswerable questions to a higher level of difficulty for Machine Reading
Comprehension systems to solve.
- Abstract(参考訳): 多言語性の呪いは単言語環境で多言語モデルの言語能力を大幅に制限するが、研究者はベトナム語機械の理解において最先端のシステムを開発するために多言語モデルに頼る必要がある。
この研究の難しさはベトナム語モデルの開発において高品質な作品が限られているためである。
本研究のさらなる研究を促進するために,機械読解理解の下流タスクを用いて,現在のベトナム語単言語モデルの言語弱さと強みを包括的に分析した。
分析結果から,ベトナム語モデルの開発に向けた新しい方向性を提案する。
この貢献に加えて,ベトナム機械読解ベンチマークにおける人工物の存在を明らかにすることにも成功し,ベトナム機械読解の進展を追跡するための新たな高品質ベンチマークの必要性も示唆した。
また,従来の作業から,機械読解の不可解な質問に注釈を付けるプロセスに,小さながら価値ある修正を加えた。
提案手法は,機械読解システムにおいて解答不能な質問の品質を高いレベルの難易度に向上させるのに役立つ。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-03-20T10:14:13Z) - VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - VieSum: How Robust Are Transformer-based Models on Vietnamese
Summarization? [1.1379578593538398]
ベトナムの抽象的な要約のためのトランスフォーマーベースエンコーダデコーダアーキテクチャのロバスト性について検討する。
ベトナムの2つのデータセットにおける手法の性能を検証した。
論文 参考訳(メタデータ) (2021-10-08T17:10:31Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - An Experimental Study of Deep Neural Network Models for Vietnamese
Multiple-Choice Reading Comprehension [2.7528170226206443]
我々は、単語表現が機械読解に与える影響を理解するために、ニューラルネットワークに基づくモデルの実験を行う。
ベトナム語の単語埋め込みにおけるコマッチモデルと,複数字読解のためのBERTモデルについて検討した。
ViMMRCコーパスでは、BERTモデルの精度はテストセットで61.28%である。
論文 参考訳(メタデータ) (2020-08-20T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。