論文の概要: Multilingual AMR-to-Text Generation
- arxiv url: http://arxiv.org/abs/2011.05443v1
- Date: Tue, 10 Nov 2020 22:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:33:21.182601
- Title: Multilingual AMR-to-Text Generation
- Title(参考訳): 多言語 amr-to-text 生成
- Authors: Angela Fan, Claire Gardent
- Abstract要約: 20の異なる言語で生成する多言語AMR-to-textモデルを作成する。
自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。
我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
- 参考スコア(独自算出の注目度): 22.842874899794996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating text from structured data is challenging because it requires
bridging the gap between (i) structure and natural language (NL) and (ii)
semantically underspecified input and fully specified NL output. Multilingual
generation brings in an additional challenge: that of generating into languages
with varied word order and morphological properties. In this work, we focus on
Abstract Meaning Representations (AMRs) as structured input, where previous
research has overwhelmingly focused on generating only into English. We
leverage advances in cross-lingual embeddings, pretraining, and multilingual
models to create multilingual AMR-to-text models that generate in twenty one
different languages. For eighteen languages, based on automatic metrics, our
multilingual models surpass baselines that generate into a single language. We
analyse the ability of our multilingual models to accurately capture morphology
and word order using human evaluation, and find that native speakers judge our
generations to be fluent.
- Abstract(参考訳): 構造化データからテキストを生成するには、ギャップを埋める必要があるため、難しい
(i)構造と自然言語(NL)と
(ii)意味的に不特定な入力と完全なNL出力。
多言語生成は、様々な単語順序と形態的特性を持つ言語に生成するという、さらなる課題をもたらす。
本研究では,構造化入力として抽象的意味表現 (abstract meaning representations, amrs) に着目した。
我々は、言語間埋め込み、事前学習、多言語モデルの進歩を活用して、20の異なる言語で生成される多言語AMR-to-textモデルを作成する。
自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。
我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
関連論文リスト
- Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Crosslingual Structural Priming and the Pre-Training Dynamics of
Bilingual Language Models [6.845954748361076]
構造プライミングを用いて、モデル出力に対する因果効果を持つ抽象文法表現をテストする。
オランダ語と英語のバイリンガル設定にアプローチを拡張し,事前学習時のオランダ語と英語のモデルを評価する。
また,第2言語に曝露すると,言語間構造的プライミング効果が早期に出現し,その言語でのデータトークンが100万個未満であることが判明した。
論文 参考訳(メタデータ) (2023-10-11T22:57:03Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Generalising Multilingual Concept-to-Text NLG with Language Agnostic
Delexicalisation [0.40611352512781856]
概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。
多言語事前学習型埋め込みを用いた新しいデレクサライズ手法であるLanguage Agnostic Delexicalizationを提案する。
5つのデータセットと5つの言語で実験した結果、多言語モデルは概念対テキストで単言語モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-05-07T17:48:53Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。