Fugu-MT 論文翻訳(概要): A New Aligned Simple German Corpus

論文の概要: A New Aligned Simple German Corpus

arxiv url: http://arxiv.org/abs/2209.01106v1
Date: Fri, 2 Sep 2022 15:14:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-05 12:27:58.467916
Title: A New Aligned Simple German Corpus
Title（参考訳）: 新しい配列の単純なドイツ語コーパス
Authors: Vanessa Toborek and Moritz Busch and Malte Bo{\ss}ert and Pascal Welke and Christian Bauckhage
Abstract要約: 単純ドイツ語のための文列単言語コーパスを新たに提案する。自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
参考スコア（独自算出の注目度）: 2.7981463795578927
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: "Leichte Sprache", the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned monolingual corpus for Simple German -- German. It contains multiple document-aligned sources which we have aligned using automatic sentence-alignment methods. We evaluate our alignments based on a manually labelled subset of aligned documents. The quality of our sentence alignments, as measured by F1-score, surpasses previous work. We publish the dataset under CC BY-SA and the accompanying code under MIT license.
Abstract（参考訳）: ドイツ語で「leichte sprache」を意味する「leichte sprache」は、異なる集団に通じない複雑な文字言語を促進することを目的とした規制された言語である。単純ドイツ語のための文列単言語コーパスを新たに提案する。自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。文書を手動でラベル付けしたサブセットに基づいてアライメントを評価する。文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。データセットはCC BY-SAで公開し、対応するコードはMITライセンスで公開します。

関連論文リスト

AlignAR: Generative Sentence Alignment for Arabic-English Parallel Corpora of Legal and Literary Texts [0.0]
既存のデータセットは主に単純な1対1のマッピングで構成されている。本稿では、生成文アライメント手法であるAlignARと、簡単な法と複雑な文の並列テキストからなるアラビア・英語のデータセットを提案する。
論文参考訳（メタデータ） (2025-12-26T03:10:43Z)
Building and Aligning Comparable Corpora [0.0]
比較可能なコーパス(Comparable corpus)は、複数の言語におけるトピックに沿ったドキュメントの集合である。ウィキペディア百科事典とEURONEWSのウェブサイトから、英語、フランス語、アラビア語で同等のコーパスを構築する方法を提案する。また,言語間類似度尺度を用いて,同等の文書を自動的に整合させる手法の実験を行った。
論文参考訳（メタデータ） (2025-08-04T16:05:36Z)
A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文参考訳（メタデータ） (2024-03-05T13:55:16Z)
SentAlign: Accurate and Scalable Sentence Alignment [4.363828136730248]
SentAlignは、非常に大きな並列ドキュメントペアを扱うように設計された、正確な文アライメントツールである。アライメントアルゴリズムは、数千の文からなるかなり大きな文書における全ての可能なアライメントパスを評価し、数万の文を含む文書のアライメントに分割・コンカレントアプローチを使用する。
論文参考訳（メタデータ） (2023-11-15T14:15:41Z)
Does mBERT understand Romansh? Evaluating word embeddings using word alignment [0.0]
類似度に基づく単語アライメントモデル(SimAlign と Super-Align )と mBERT と XLM-R の単語埋め込みを,ドイツ語とロマンシュ語の並行文に組み合わせて検証する。 mBERTの埋め込みを使用して、両方のモデルがアライメントエラー率0.22に達し、fast_alignを上回っている。また、ドイツ語とロマンシュ語の単語アライメントのための金の標準も提示する。
論文参考訳（メタデータ） (2023-06-14T19:00:12Z)
A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文参考訳（メタデータ） (2023-06-07T06:47:34Z)
DEPLAIN: A German Parallel Corpus with Intralingual Translations into Plain Language for Sentence and Document Simplification [1.5223905439199599]
そこで本論文では, パラレル, プロライティング, 手作業による手作業による簡易化のデータセットであるDeplainについて述べる。 Deplain を用いてトランスフォーマーベースの seq2seq テキスト簡易化モデルを訓練することで,有望な結果が得られることを示す。コーパス、ドイツ語の適応したアライメント方法、ウェブ収穫機、そしてここで訓練されたモデルを利用可能にしています。
論文参考訳（メタデータ） (2023-05-30T11:07:46Z)
Towards Unsupervised Recognition of Token-level Semantic Differences in Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2023-05-22T17:58:04Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
Subword Sampling for Low Resource Word Alignment [4.663577299263155]
テキスト単位のサブワードサンプリングに基づくアライメントを提案する。サブワードサンプリング法が6つの言語ペアの単語レベルアライメントを一貫して上回ることを示す。
論文参考訳（メタデータ） (2020-12-21T19:47:04Z)
Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文参考訳（メタデータ） (2020-10-02T18:31:45Z)
"Listen, Understand and Translate": Triple Supervision Decouples End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。既存の方法は並列コーパスの量によって制限される。並列STコーパスで信号を完全に活用するシステムを構築した。
論文参考訳（メタデータ） (2020-09-21T09:19:07Z)
A Supervised Word Alignment Method based on Cross-Language Span Prediction using Multilingual BERT [22.701728185474195]
まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
論文参考訳（メタデータ） (2020-04-29T23:40:08Z)
Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文参考訳（メタデータ） (2020-02-10T03:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。