論文の概要: Generalising Multilingual Concept-to-Text NLG with Language Agnostic
Delexicalisation
- arxiv url: http://arxiv.org/abs/2105.03432v1
- Date: Fri, 7 May 2021 17:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:20:00.764961
- Title: Generalising Multilingual Concept-to-Text NLG with Language Agnostic
Delexicalisation
- Title(参考訳): 言語非依存のdeexicalizationを用いた多言語概念テキストNLGの一般化
- Authors: Giulio Zhou and Gerasimos Lampouras
- Abstract要約: 概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。
多言語事前学習型埋め込みを用いた新しいデレクサライズ手法であるLanguage Agnostic Delexicalizationを提案する。
5つのデータセットと5つの言語で実験した結果、多言語モデルは概念対テキストで単言語モデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.40611352512781856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept-to-text Natural Language Generation is the task of expressing an
input meaning representation in natural language. Previous approaches in this
task have been able to generalise to rare or unseen instances by relying on a
delexicalisation of the input. However, this often requires that the input
appears verbatim in the output text. This poses challenges in multilingual
settings, where the task expands to generate the output text in multiple
languages given the same input. In this paper, we explore the application of
multilingual models in concept-to-text and propose Language Agnostic
Delexicalisation, a novel delexicalisation method that uses multilingual
pretrained embeddings, and employs a character-level post-editing model to
inflect words in their correct form during relexicalisation. Our experiments
across five datasets and five languages show that multilingual models
outperform monolingual models in concept-to-text and that our framework
outperforms previous approaches, especially for low resource languages.
- Abstract(参考訳): 概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。
このタスクの以前のアプローチでは、入力の語彙化に依存することで、希少なインスタンスや見当たらないインスタンスに一般化することができた。
しかし、これはしばしば、入力が出力テキストに冗長に現れることを要求する。
これは、タスクが同じ入力を受けた複数の言語で出力テキストを生成するように拡張される、多言語設定における課題を引き起こす。
本稿では,多言語モデルのコンセプト・ツー・テキストへの応用について検討し,多言語事前学習埋め込みを用いた新しい語彙化手法である言語非依存語彙化を提案し,文字レベルのポスト編集モデルを用いて語彙化時に単語を正しい形に反映する。
5つのデータセットと5つの言語で実験した結果、多言語モデルは概念からテキストへの一言語モデルよりも優れており、我々のフレームワークは以前のアプローチ、特に低リソース言語よりも優れています。
関連論文リスト
- Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - Multilingual Text Representation [3.4447129363520337]
現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。
最先端の言語モデルは、単語の単純な1ホット表現から始まり、長い道のりを歩んだ。
我々は、言語民主化の潜在能力が、既知の限界を超えてどのように得られるかについて論じる。
論文 参考訳(メタデータ) (2023-09-02T14:21:22Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Multilingual AMR-to-Text Generation [22.842874899794996]
20の異なる言語で生成する多言語AMR-to-textモデルを作成する。
自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。
我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
論文 参考訳(メタデータ) (2020-11-10T22:47:14Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。