論文の概要: Exploiting News Article Structure for Automatic Corpus Generation of
Entailment Datasets
- arxiv url: http://arxiv.org/abs/2010.11574v3
- Date: Fri, 13 Aug 2021 09:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:32:08.869413
- Title: Exploiting News Article Structure for Automatic Corpus Generation of
Entailment Datasets
- Title(参考訳): 詳細データセットの自動コーパス生成のためのニュース記事構造
- Authors: Jan Christian Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John
Velasco and Charibeth Cheng
- Abstract要約: 本稿では,低リソース言語を対象としたベンチマークデータセットの自動生成手法を提案する。
第2に,フィリピンの資源不足を緩和するため,ELECTRA技術に基づく事前学習型トランスフォーマを新たに作成する。
第3に,低データ領域で動作する場合の真の性能に光を当てるために,転送学習手法の分析を行う。
- 参考スコア(独自算出の注目度): 1.859931123372708
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers represent the state-of-the-art in Natural Language Processing
(NLP) in recent years, proving effective even in tasks done in low-resource
languages. While pretrained transformers for these languages can be made, it is
challenging to measure their true performance and capacity due to the lack of
hard benchmark datasets, as well as the difficulty and cost of producing them.
In this paper, we present three contributions: First, we propose a methodology
for automatically producing Natural Language Inference (NLI) benchmark datasets
for low-resource languages using published news articles. Through this, we
create and release NewsPH-NLI, the first sentence entailment benchmark dataset
in the low-resource Filipino language. Second, we produce new pretrained
transformers based on the ELECTRA technique to further alleviate the resource
scarcity in Filipino, benchmarking them on our dataset against other
commonly-used transfer learning techniques. Lastly, we perform analyses on
transfer learning techniques to shed light on their true performance when
operating in low-data domains through the use of degradation tests.
- Abstract(参考訳): トランスフォーマーは近年の自然言語処理(NLP)の最先端を表現しており、低リソース言語で行われているタスクでも有効であることが証明されている。
これらの言語の事前学習されたトランスフォーマーは作成可能だが、ハードベンチマークデータセットの欠如と、それらの製造の困難さとコストのため、真のパフォーマンスとキャパシティを測定することは困難である。
本稿では,3つのコントリビューションを提案する。まず,低リソース言語を対象とした自然言語推論(NLI)ベンチマークデータセットの自動生成手法を提案する。
そこで我々は,低リソースのフィリピン語で最初の文包含ベンチマークデータセットであるNewsPH-NLIを作成し,リリースする。
第2に,フィリピンの資源不足をさらに緩和するためにelectra技術に基づく新しい事前学習トランスを新たに作成し,他の一般的な転送学習技術に対してデータセット上でベンチマークを行う。
最後に, 劣化試験を用いて低データ領域での運用時の真の性能を明らかにするために, 転送学習手法の分析を行う。
関連論文リスト
- Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - TransQuest: Translation Quality Estimation with Cross-lingual
Transformers [14.403165053223395]
言語間変換に基づく簡単なQEフレームワークを提案する。
2つの異なるニューラルアーキテクチャの実装と評価に使用しています。
評価の結果,提案手法は最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-01T16:34:44Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。