論文の概要: A New Aligned Simple German Corpus
- arxiv url: http://arxiv.org/abs/2209.01106v1
- Date: Fri, 2 Sep 2022 15:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:27:58.467916
- Title: A New Aligned Simple German Corpus
- Title(参考訳): 新しい配列の単純なドイツ語コーパス
- Authors: Vanessa Toborek and Moritz Busch and Malte Bo{\ss}ert and Pascal Welke
and Christian Bauckhage
- Abstract要約: 単純ドイツ語のための文列単言語コーパスを新たに提案する。
自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。
文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
- 参考スコア(独自算出の注目度): 2.7981463795578927
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: "Leichte Sprache", the German counterpart to Simple English, is a regulated
language aiming to facilitate complex written language that would otherwise
stay inaccessible to different groups of people. We present a new
sentence-aligned monolingual corpus for Simple German -- German. It contains
multiple document-aligned sources which we have aligned using automatic
sentence-alignment methods. We evaluate our alignments based on a manually
labelled subset of aligned documents. The quality of our sentence alignments,
as measured by F1-score, surpasses previous work. We publish the dataset under
CC BY-SA and the accompanying code under MIT license.
- Abstract(参考訳): ドイツ語で「leichte sprache」を意味する「leichte sprache」は、異なる集団に通じない複雑な文字言語を促進することを目的とした規制された言語である。
単純ドイツ語のための文列単言語コーパスを新たに提案する。
自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。
文書を手動でラベル付けしたサブセットに基づいてアライメントを評価する。
文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
データセットはCC BY-SAで公開し、対応するコードはMITライセンスで公開します。
関連論文リスト
- On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Subword Sampling for Low Resource Word Alignment [4.663577299263155]
テキスト単位のサブワードサンプリングに基づくアライメントを提案する。
サブワードサンプリング法が6つの言語ペアの単語レベルアライメントを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2020-12-21T19:47:04Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Swiss Parliaments Corpus, an Automatically Aligned Swiss German Speech
to Standard German Text Corpus [2.610806620660055]
このコーパスの最初のバージョンは、ベルヌ州議会の公開データに基づいており、293時間のデータで構成されている。
新規な強制文アライメント手順とアライメント品質推定器を用いて作成された。
我々は,データの各サブセットのベースラインとして自動音声認識(ASR)モデルを訓練し,SPCテストセットで0.278のワード誤り率(WER)と0.586のBLEUスコアを達成した。
論文 参考訳(メタデータ) (2020-10-06T15:18:21Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT [22.701728185474195]
まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。
次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。
提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-04-29T23:40:08Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - A Multilingual Study of Multi-Sentence Compression using Word
Vertex-Labeled Graphs and Integer Linear Programming [1.3922732150370447]
Multi-Sentence Compression (MSC) は、類似した文のクラスタからキー情報を持つ短い文を生成することを目的としている。
本稿では,異なるキーワードを選択するためにグラフを用いたMSCの線形計画法について述べる。
システムの品質は良好で,3言語でニュースデータセットを導いた評価の精度に優れる。
論文 参考訳(メタデータ) (2020-04-09T10:35:16Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。