論文の概要: XAlign: Cross-lingual Fact-to-Text Alignment and Generation for
Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2202.00291v1
- Date: Tue, 1 Feb 2022 09:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:46:17.979777
- Title: XAlign: Cross-lingual Fact-to-Text Alignment and Generation for
Low-Resource Languages
- Title(参考訳): xalign: 低リソース言語のための言語間ファクトツーテキストアライメントと生成
- Authors: Tushar Abhishek, Shivprasad Sagare, Bhavyajeet Singh, Anubhav Sharma,
Manish Gupta and Vasudeva Varma
- Abstract要約: 英語のInfoboxに与えられたウィキペディアテキスト生成のような)複数の重要なシナリオでは、英語のファクトトリプルから低リソース(LR)言語で記述テキストを自動的に生成する必要がある。
我々の知る限りでは、LR言語に対する言語間アライメントや生成の試みは、これまでなかった。
言語間アライメントのための2つの教師なし手法を提案する。
- 参考スコア(独自算出の注目度): 11.581072296148031
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiple critical scenarios (like Wikipedia text generation given English
Infoboxes) need automated generation of descriptive text in low resource (LR)
languages from English fact triples. Previous work has focused on English
fact-to-text (F2T) generation. To the best of our knowledge, there has been no
previous attempt on cross-lingual alignment or generation for LR languages.
Building an effective cross-lingual F2T (XF2T) system requires alignment
between English structured facts and LR sentences. We propose two unsupervised
methods for cross-lingual alignment. We contribute XALIGN, an XF2T dataset with
0.45M pairs across 8 languages, of which 5402 pairs have been manually
annotated. We also train strong baseline XF2T generation models on the XAlign
dataset.
- Abstract(参考訳): 英語のInfoboxに与えられたウィキペディアテキスト生成のような)複数の重要なシナリオでは、英語のファクトトリプルから低リソース(LR)言語で記述テキストを自動的に生成する必要がある。
これまでの研究は、英語のファクト・トゥ・テキスト(F2T)生成に焦点を当ててきた。
我々の知る限りでは、LR言語に対する言語間アライメントや生成の試みは、これまでなかった。
効果的な言語間F2T (XF2T) システムの構築には、英語の構造化事実とLR文のアライメントが必要となる。
言語間アライメントのための教師なし手法を2つ提案する。
XALIGNは8言語で0.45万ペアのXF2Tデータセットで、5402ペアが手動で注釈付けされている。
また、XAlignデータセット上で強力なベースラインXF2T生成モデルをトレーニングする。
関連論文リスト
- Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual
Understanding (XLU) [0.0]
我々は、XNLIに存在する14の言語すべてでMNLIデータセットを再翻訳することで、元のXNLIデータセットの改善に注力する。
また、15言語すべてでモデルを訓練し、自然言語推論のタスクでそれらの性能を分析する実験を行った。
論文 参考訳(メタデータ) (2023-01-16T17:24:57Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages [11.581072296148031]
拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。
構造認識型入力エンコーディングとファクト認識を用いたマルチ言語 mT5 モデルにより,12言語の平均結果が得られた。
論文 参考訳(メタデータ) (2022-09-22T18:01:27Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。