論文の概要: Don't Go Far Off: An Empirical Study on Neural Poetry Translation
- arxiv url: http://arxiv.org/abs/2109.02972v1
- Date: Tue, 7 Sep 2021 10:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 19:49:34.059704
- Title: Don't Go Far Off: An Empirical Study on Neural Poetry Translation
- Title(参考訳): 遠くに行かないで:神経詩の翻訳に関する実証的研究
- Authors: Tuhin Chakrabarty, Arkadiy Saakyan and Smaranda Muresan
- Abstract要約: いくつかの側面から詩の翻訳を実証的に検討する。
複数言語対の詩翻訳の並列データセットをコントリビュートする。
その結果,詩文の多言語微調整は,35倍の大きさの非詩文の多言語微調整よりも優れていた。
- 参考スコア(独自算出の注目度): 13.194404923699782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite constant improvements in machine translation quality, automatic
poetry translation remains a challenging problem due to the lack of
open-sourced parallel poetic corpora, and to the intrinsic complexities
involved in preserving the semantics, style, and figurative nature of poetry.
We present an empirical investigation for poetry translation along several
dimensions: 1) size and style of training data (poetic vs. non-poetic),
including a zero-shot setup; 2) bilingual vs. multilingual learning; and 3)
language-family-specific models vs. mixed-multilingual models. To accomplish
this, we contribute a parallel dataset of poetry translations for several
language pairs. Our results show that multilingual fine-tuning on poetic text
significantly outperforms multilingual fine-tuning on non-poetic text that is
35X larger in size, both in terms of automatic metrics (BLEU, BERTScore) and
human evaluation metrics such as faithfulness (meaning and poetic style).
Moreover, multilingual fine-tuning on poetic data outperforms \emph{bilingual}
fine-tuning on poetic data.
- Abstract(参考訳): 機械翻訳の質が常に改善されているにもかかわらず、自動詩翻訳は、オープンソースの平行詩のコーパスの欠如や、詩の意味論、スタイル、図形的な性質の保存に関わる本質的な複雑さのために、依然として困難な問題である。
1)ゼロショット設定を含む訓練データのサイズとスタイル(ポティック対非ポティック)、2)バイリンガル対多言語学習、3)言語族固有のモデルと混合多言語モデルである。
これを実現するために,複数言語対の詩翻訳の並列データセットをコントリビュートする。
その結果、詩文の多言語微調整は、自動尺度(BLEU, BERTScore)と、忠実度(意味と詩的スタイル)などの人的評価指標の両方において、35倍の大きさの非詩文の多言語微調整よりも優れていた。
さらに、詩データにおける多言語的微調整は、詩的データにおける \emph{bilingual} の微調整よりも優れている。
関連論文リスト
- Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets [3.0040661953201475]
大規模言語モデル(LLM)が詩を生成、認識できるようになった。
我々はLLMが英語詩の1つの側面をいかに認識するかを評価するタスクを開発する。
我々は,現在最先端のLLMが,一般的な文体と一般的でない文体の両方を識別できることを示す。
論文 参考訳(メタデータ) (2024-06-27T05:36:53Z) - Evaluating Diversity in Automatic Poetry Generation [25.53206868552533]
我々は、構造的、語彙的、意味的、様式的な側面に沿って自動生成された詩の多様性を評価する。
現在の自動詩体系は,多次元にまたがってかなり過渡していることがわかった。
我々の特定された制限は、より真に多様な未来の詩生成モデルの基礎となるかもしれない。
論文 参考訳(メタデータ) (2024-06-21T16:03:21Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - ALBERTI, a Multilingual Domain Specific Language Model for Poetry
Analysis [0.0]
我々は、詩のための最初の多言語事前訓練された大規模言語モデルであるtextscAlbertiを提示する。
さらに12言語から1200万節以上のコーパスで多言語BERTを訓練した。
textscAlbertiは、ルールベースのシステムと比較して、ドイツ語の最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-03T22:50:53Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Prose2Poem: The Blessing of Transformers in Translating Prose to Persian
Poetry [2.15242029196761]
我々は、古代ペルシア詩に散文を翻訳する新しいニューラル・マシン・トランスレーション(NMT)アプローチを導入する。
我々は、初期翻訳を得るために、スクラッチからトランスフォーマーモデルを訓練し、最終翻訳を得るためにBERTの様々なバリエーションを事前訓練した。
論文 参考訳(メタデータ) (2021-09-30T09:04:11Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - MixPoet: Diverse Poetry Generation via Learning Controllable Mixed
Latent Space [79.70053419040902]
多様な要素を吸収し,多様なスタイルを創出し,多様性を促進する新しいモデルであるMixPoetを提案する。
半教師付き変分オートエンコーダに基づいて、我々のモデルは潜在空間をいくつかの部分空間に切り離し、それぞれが敵の訓練によって1つの影響因子に条件付けされる。
中国詩の実験結果は、MixPoetが3つの最先端モデルに対して多様性と品質の両方を改善していることを示している。
論文 参考訳(メタデータ) (2020-03-13T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。