論文の概要: HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual
Morpheme Alignment
- arxiv url: http://arxiv.org/abs/2003.07456v1
- Date: Mon, 16 Mar 2020 22:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:13:03.500671
- Title: HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual
Morpheme Alignment
- Title(参考訳): Hebrew-Greek-Finnish並列聖書コーパスHELFI
- Authors: Anssi Yli-Jyr\"a and Josi Purhonen and Matti Liljeqvist and Arto
Antturi and Pekka Nieminen and Kari M. R\"antil\"a and Valtter Luoto
- Abstract要約: 205年前、形態学的にヘブライ・フィンランド語とギリシア・フィンランド語が手作業で作られた。
本稿では,元来の一目的データベース作成から始まる非自明な編集プロセスについて述べる。
無償のテキストエディションとアノテーションのみを使用して、再構築で終了する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Twenty-five years ago, morphologically aligned Hebrew-Finnish and
Greek-Finnish bitexts (texts accompanied by a translation) were constructed
manually in order to create an analytical concordance (Luoto et al., 1997) for
a Finnish Bible translation. The creators of the bitexts recently secured the
publisher's permission to release its fine-grained alignment, but the alignment
was still dependent on proprietary, third-party resources such as a copyrighted
text edition and proprietary morphological analyses of the source texts. In
this paper, we describe a nontrivial editorial process starting from the
creation of the original one-purpose database and ending with its
reconstruction using only freely available text editions and annotations. This
process produced an openly available dataset that contains (i) the source texts
and their translations, (ii) the morphological analyses, (iii) the
cross-lingual morpheme alignments.
- Abstract(参考訳): 205年前、フィンランドの聖書の翻訳のための分析的一致(Luoto et al., 1997)を作成するために、ヘブライ語・フィンランド語とギリシア語・フィンランド語のビットックス(翻訳を伴う文章)が手作業で構築された。
バイテキストの作成者は、最近出版社が細かなアライメントをリリースする許可を得たが、このアライメントは著作権付きテキストエディションや原文の独自形態分析といった、プロプライエタリなサードパーティのリソースに依存していた。
本稿では,原目的データベースの作成から自由利用可能なテキスト版と注釈のみを使用して,その再構築を終える非自明な編集プロセスについて述べる。
このプロセスは、オープンに利用可能なデータセットを生成しました
(i)原文とその翻訳
(II)形態素解析
(iii)言語交叉形態素アライメント。
関連論文リスト
- Automatic Translation Alignment Pipeline for Multilingual Digital Editions of Literary Works [0.0]
本稿では,アレッサンドロ・マンゾニのイタリア語小説「I promessi sposi」の多言語デジタル版(MDE)作成における翻訳アライメントアルゴリズムの適用について検討する。
我々は、MDEが読者体験と翻訳学習のサポートの両方を改善するための重要な要件を特定した。
本稿では,文語翻訳のアライメントを評価するための新しい指標を提案し,今後の分析のための可視化手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T06:21:38Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Computer-Aided Modelling of the Bilingual Word Indices to the
Ninth-Century Uchitel'noe evangelie [0.0]
我々は,情報源の多元性から生じる様々な非対称翻訳の関連性と変動性をモデル化する方法を示す。
われわれのアプローチは一般化を念頭に設計されており、ギリシャ語から旧教会スラヴ語への他の翻訳にも適用できるよう意図されている。
論文 参考訳(メタデータ) (2022-10-25T10:16:39Z) - Example-Based Machine Translation from Text to a Hierarchical
Representation of Sign Language [1.3999481573773074]
本稿では,テキスト・トゥ・サイン翻訳の原本について述べる。
これは、AZeeにおける手話ビデオのテキストと階層的な形式記述の間のアライメントのドメイン固有の並列コーパスを使用して、データの不足を補う。
提案アルゴリズムは、ソーステキストに存在する類似性の検出に基づいて、整列セグメントのマッチングと置換を利用して、複数の候補翻訳を構築する。
結果として得られる翻訳は、アバターシステムへの入力として使用されるように設計されたAZee式(英語版)の形式である。
論文 参考訳(メタデータ) (2022-05-06T15:48:43Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文 参考訳(メタデータ) (2020-06-22T14:22:47Z) - Building a Hebrew Semantic Role Labeling Lexical Resource from Parallel
Movie Subtitles [4.089055556130724]
本稿では,英語からのアノテーション投影によって半自動構築されたヘブライ語における意味的役割のラベル付け資源を提案する。
このコーパスは多言語OpenSubtitlesデータセットから派生し、短い非公式文を含む。
FrameNetとPropBankの両スタイルで、形態解析、依存性の構文、セマンティックロールのラベル付けを含む、完全に注釈付けされたデータを提供する。
我々は、このヘブライ語リソース上で、事前訓練された多言語BERTトランスフォーマーモデルを利用して、ニューラルネットワークSRLモデルをトレーニングし、基準点として、Hebrew SRLの最初のベースラインモデルを提供する。
論文 参考訳(メタデータ) (2020-05-17T10:03:42Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。