論文の概要: ALBERTI, a Multilingual Domain Specific Language Model for Poetry
Analysis
- arxiv url: http://arxiv.org/abs/2307.01387v1
- Date: Mon, 3 Jul 2023 22:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 18:58:51.384158
- Title: ALBERTI, a Multilingual Domain Specific Language Model for Poetry
Analysis
- Title(参考訳): alberti : 詩分析のための多言語ドメイン特化言語モデル
- Authors: Javier de la Rosa, \'Alvaro P\'erez Pozo, Salvador Ros, Elena
Gonz\'alez-Blanco
- Abstract要約: 我々は、詩のための最初の多言語事前訓練された大規模言語モデルであるtextscAlbertiを提示する。
さらに12言語から1200万節以上のコーパスで多言語BERTを訓練した。
textscAlbertiは、ルールベースのシステムと比較して、ドイツ語の最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computational analysis of poetry is limited by the scarcity of tools to
automatically analyze and scan poems. In a multilingual settings, the problem
is exacerbated as scansion and rhyme systems only exist for individual
languages, making comparative studies very challenging and time consuming. In
this work, we present \textsc{Alberti}, the first multilingual pre-trained
large language model for poetry. Through domain-specific pre-training (DSP), we
further trained multilingual BERT on a corpus of over 12 million verses from 12
languages. We evaluated its performance on two structural poetry tasks: Spanish
stanza type classification, and metrical pattern prediction for Spanish,
English and German. In both cases, \textsc{Alberti} outperforms multilingual
BERT and other transformers-based models of similar sizes, and even achieves
state-of-the-art results for German when compared to rule-based systems,
demonstrating the feasibility and effectiveness of DSP in the poetry domain.
- Abstract(参考訳): 詩の計算分析は、詩を自動的に分析しスキャンするツールの不足によって制限される。
多言語設定では、個々の言語にのみスキャンと韻律システムが存在するため、比較研究は非常に困難で時間がかかり、問題が悪化する。
本稿では,詩文のための最初の多言語事前学習型大言語モデルである \textsc{alberti} を提案する。
ドメイン特化事前学習(DSP)を通じて、12言語から1200万節以上のコーパスで多言語BERTを訓練した。
スペイン語のスタンザ型分類と,スペイン語,英語,ドイツ語のメートル法パターン予測という2つの構造詩課題において,その性能を評価した。
どちらの場合も、textsc{Alberti} は多言語BERT や他の変圧器ベースモデルよりも優れており、ルールベースシステムと比較してドイツ語の最先端の結果も得られ、詩領域における DSP の有効性と有効性を示している。
関連論文リスト
- Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Don't Go Far Off: An Empirical Study on Neural Poetry Translation [13.194404923699782]
いくつかの側面から詩の翻訳を実証的に検討する。
複数言語対の詩翻訳の並列データセットをコントリビュートする。
その結果,詩文の多言語微調整は,35倍の大きさの非詩文の多言語微調整よりも優れていた。
論文 参考訳(メタデータ) (2021-09-07T10:00:44Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Metrical Tagging in the Wild: Building and Annotating Poetry Corpora
with Rhythmic Features [0.0]
英語とドイツ語に大規模な詩コーパスを提供し,コーパス駆動ニューラルモデルを訓練するためのコーパスを小型化した韻律的特徴をアノテートする。
音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-17T16:38:57Z) - Multilingual AMR-to-Text Generation [22.842874899794996]
20の異なる言語で生成する多言語AMR-to-textモデルを作成する。
自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。
我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
論文 参考訳(メタデータ) (2020-11-10T22:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。