論文の概要: A New Aligned Simple German Corpus
- arxiv url: http://arxiv.org/abs/2209.01106v2
- Date: Tue, 6 Sep 2022 07:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 10:43:41.645965
- Title: A New Aligned Simple German Corpus
- Title(参考訳): 新しい配列の単純なドイツ語コーパス
- Authors: Vanessa Toborek and Moritz Busch and Malte Bo{\ss}ert and Christian
Bauckhage and Pascal Welke
- Abstract要約: 単純ドイツ語のための文列単言語コーパスを新たに提案する。
自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。
文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
- 参考スコア(独自算出の注目度): 2.7981463795578927
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: "Leichte Sprache", the German counterpart to Simple English, is a regulated
language aiming to facilitate complex written language that would otherwise
stay inaccessible to different groups of people. We present a new
sentence-aligned monolingual corpus for Simple German -- German. It contains
multiple document-aligned sources which we have aligned using automatic
sentence-alignment methods. We evaluate our alignments based on a manually
labelled subset of aligned documents. The quality of our sentence alignments,
as measured by F1-score, surpasses previous work. We publish the dataset under
CC BY-SA and the accompanying code under MIT license.
- Abstract(参考訳): ドイツ語で「leichte sprache」を意味する「leichte sprache」は、異なる集団に通じない複雑な文字言語を促進することを目的とした規制された言語である。
単純ドイツ語のための文列単言語コーパスを新たに提案する。
自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。
文書を手動でラベル付けしたサブセットに基づいてアライメントを評価する。
文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
データセットはCC BY-SAで公開し、対応するコードはMITライセンスで公開します。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - SentAlign: Accurate and Scalable Sentence Alignment [4.363828136730248]
SentAlignは、非常に大きな並列ドキュメントペアを扱うように設計された、正確な文アライメントツールである。
アライメントアルゴリズムは、数千の文からなるかなり大きな文書における全ての可能なアライメントパスを評価し、数万の文を含む文書のアライメントに分割・コンカレントアプローチを使用する。
論文 参考訳(メタデータ) (2023-11-15T14:15:41Z) - Does mBERT understand Romansh? Evaluating word embeddings using word
alignment [0.0]
類似度に基づく単語アライメントモデル(SimAlign と Super-Align )と mBERT と XLM-R の単語埋め込みを,ドイツ語とロマンシュ語の並行文に組み合わせて検証する。
mBERTの埋め込みを使用して、両方のモデルがアライメントエラー率0.22に達し、fast_alignを上回っている。
また、ドイツ語とロマンシュ語の単語アライメントのための金の標準も提示する。
論文 参考訳(メタデータ) (2023-06-14T19:00:12Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - DEPLAIN: A German Parallel Corpus with Intralingual Translations into
Plain Language for Sentence and Document Simplification [1.5223905439199599]
そこで本論文では, パラレル, プロライティング, 手作業による手作業による簡易化のデータセットであるDeplainについて述べる。
Deplain を用いてトランスフォーマーベースの seq2seq テキスト簡易化モデルを訓練することで,有望な結果が得られることを示す。
コーパス、ドイツ語の適応したアライメント方法、ウェブ収穫機、そしてここで訓練されたモデルを利用可能にしています。
論文 参考訳(メタデータ) (2023-05-30T11:07:46Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Subword Sampling for Low Resource Word Alignment [4.663577299263155]
テキスト単位のサブワードサンプリングに基づくアライメントを提案する。
サブワードサンプリング法が6つの言語ペアの単語レベルアライメントを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2020-12-21T19:47:04Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT [22.701728185474195]
まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。
次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。
提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-04-29T23:40:08Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。