論文の概要: Predictability and Causality in Spanish and English Natural Language Generation
- arxiv url: http://arxiv.org/abs/2408.14283v1
- Date: Mon, 26 Aug 2024 14:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:41:26.299568
- Title: Predictability and Causality in Spanish and English Natural Language Generation
- Title(参考訳): スペイン語と英語の自然言語生成における予測可能性と因果関係
- Authors: Andrea Busto-Castiñeira, Francisco J. González-Castaño, Silvia García-Méndez, Francisco de Arriba-Pérez,
- Abstract要約: 本稿では,英語とスペイン語の因果関係と非因果関係を比較検討する。
この実験によると、スペイン語は非因果関係から英語よりも予測可能である。
これらの知見は、双方向トランスフォーマー言語モデルを用いたスペイン語におけるNLGのさらなる研究を支援する。
- 参考スコア(独自算出の注目度): 6.817247544942709
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, the field of Natural Language Generation (NLG) has been boosted by the recent advances in deep learning technologies. Nonetheless, these new data-intensive methods introduce language-dependent disparities in NLG as the main training data sets are in English. Also, most neural NLG systems use decoder-only (causal) transformer language models, which work well for English, but were not designed with other languages in mind. In this work we depart from the hypothesis that they may introduce generation bias in target languages with less rigid word ordering, subject omission, or different attachment preferences for relative clauses, so that for these target languages other language generation strategies may be more desirable. This paper first compares causal and non-causal language modeling for English and Spanish, two languages with different grammatical structures and over 1.5 billion and 0.5 billion speakers, respectively. For this purpose, we define a novel metric of average causal and non-causal context-conditioned entropy of the grammatical category distribution for both languages as an information-theoretic a priori approach. The evaluation of natural text sources (such as training data) in both languages reveals lower average non-causal conditional entropy in Spanish and lower causal conditional entropy in English. According to this experiment, Spanish is more predictable than English given a non-causal context. Then, by applying a conditional relative entropy metric to text generation experiments, we obtain as insights that the best performance is respectively achieved with causal NLG in English, and with non-causal NLG in Spanish. These insights support further research in NLG in Spanish using bidirectional transformer language models.
- Abstract(参考訳): 近年、ディープラーニング技術の進歩により、自然言語生成(NLG)の分野が強化されている。
それにもかかわらず、これらの新しいデータ集約手法は、主要なトレーニングデータセットが英語であるため、NLGの言語依存の相違を導入している。
また、ほとんどのニューラルなNLGシステムはデコーダのみの変換言語モデルを使用しており、英語ではうまく機能するが、他の言語を念頭に置いては設計されていない。
本研究は, より厳密な単語順序, 主題の省略, あるいは相対的な節に対するアタッチメントの好みが異なる対象言語における生成バイアスを導入する可能性があるという仮説から逸脱し, 対象言語以外の言語生成戦略の方が望ましい可能性がある。
本稿では、まず、英語とスペイン語の因果的言語モデリングと非因果的言語モデリング、異なる文法構造を持つ2言語、および15億以上の話者と0.5億以上の話者を比較した。
この目的のために,両言語における文法カテゴリー分布の平均因果関係と非因果関係条件のエントロピーを,情報理論の先駆的アプローチとして定義する。
双方の言語における自然テキストソース(トレーニングデータなど)の評価は、スペイン語における平均的な非因果条件エントロピーと英語における低因果条件エントロピーを明らかにしている。
この実験によると、スペイン語は非因果関係から英語よりも予測可能である。
そこで, テキスト生成実験に条件付き相対エントロピー指標を適用し, 英語の因果NLG, スペイン語の非因果NLGを用いて, 最高の性能が得られるという知見を得た。
これらの知見は、双方向トランスフォーマー言語モデルを用いたスペイン語におけるNLGのさらなる研究を支援する。
関連論文リスト
- Open Generative Large Language Models for Galician [1.3049334790726996]
大規模言語モデル(LLM)は自然言語処理に変化をもたらした。
しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。
この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。
このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。
論文 参考訳(メタデータ) (2024-06-19T23:49:56Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。