論文の概要: Building and Aligning Comparable Corpora
- arxiv url: http://arxiv.org/abs/2508.02555v1
- Date: Mon, 04 Aug 2025 16:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.41999
- Title: Building and Aligning Comparable Corpora
- Title(参考訳): 比較可能なコーパスの構築と調整
- Authors: Motaz Saad, David Langlois, Kamel Smaili,
- Abstract要約: 比較可能なコーパス(Comparable corpus)は、複数の言語におけるトピックに沿ったドキュメントの集合である。
ウィキペディア百科事典とEURONEWSのウェブサイトから、英語、フランス語、アラビア語で同等のコーパスを構築する方法を提案する。
また,言語間類似度尺度を用いて,同等の文書を自動的に整合させる手法の実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparable corpus is a set of topic aligned documents in multiple languages, which are not necessarily translations of each other. These documents are useful for multilingual natural language processing when there is no parallel text available in some domains or languages. In addition, comparable documents are informative because they can tell what is being said about a topic in different languages. In this paper, we present a method to build comparable corpora from Wikipedia encyclopedia and EURONEWS website in English, French and Arabic languages. We further experiment a method to automatically align comparable documents using cross-lingual similarity measures. We investigate two cross-lingual similarity measures to align comparable documents. The first measure is based on bilingual dictionary, and the second measure is based on Latent Semantic Indexing (LSI). Experiments on several corpora show that the Cross-Lingual LSI (CL-LSI) measure outperforms the dictionary based measure. Finally, we collect English and Arabic news documents from the British Broadcast Corporation (BBC) and from ALJAZEERA (JSC) news website respectively. Then we use the CL-LSI similarity measure to automatically align comparable documents of BBC and JSC. The evaluation of the alignment shows that CL-LSI is not only able to align cross-lingual documents at the topic level, but also it is able to do this at the event level.
- Abstract(参考訳): 比較可能なコーパス(Comparable corpus)は、複数の言語におけるトピックに沿った文書の集合であり、必ずしも相互の翻訳ではない。
これらの文書は、いくつかのドメインや言語に並列テキストが存在しない場合、多言語自然言語処理に有用である。
さらに、異なる言語でトピックについて何を言っているかを知ることができるため、同等の文書は有益なものである。
本稿では、ウィキペディア百科事典とEURONEWSのウェブサイトを英語、フランス語、アラビア語で比較するコーパスを構築する方法を提案する。
さらに、言語間類似度尺度を用いて、同等の文書を自動的に整合させる手法を実験する。
比較文書の整合性を検討するために,言語間類似度尺度を2つ検討する。
第1の尺度はバイリンガル辞書に基づいており、第2の尺度はLatent Semantic Indexing (LSI)に基づいている。
いくつかのコーパスの実験では、CL-LSI(Cross-Lingual LSI)測度が辞書ベースの測度より優れていることが示されている。
最後に,英国放送協会 (BBC) と ALJAZEERA (JSC) のニュースサイトから,それぞれ英語とアラビア語のニュース資料を収集した。
そして、CL-LSI類似度尺度を用いて、BBCとJSCの同等の文書を自動的に整列する。
このアライメントの評価は、CL-LSIが言語間文書をトピックレベルでアライメントできるだけでなく、イベントレベルでも実現可能であることを示している。
関連論文リスト
- Cross-lingual Opinions and Emotions Mining in Comparable Documents [0.0]
本研究は、英語とアラビア語に匹敵する文書における感情と感情の相違について研究する。
我々は、英語のWordNet-Affect(WNA)レキシコンをアラビア語に手動で翻訳し、それに匹敵するコーパスをラベル付けするバイリンガル感情レキシコンを作成する。
その結果、感情と感情のアノテーションは、記事が同一の報道機関から来たときに一致し、異なる記事から来たときに発散することがわかった。
論文 参考訳(メタデータ) (2025-08-05T05:44:28Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Bilingual Topic Models for Comparable Corpora [9.509416095106491]
ペア化された文書の分布間の結合機構を提案する。
異なる言語で書かれた文書の類似性を推定するために、浅いニューラルネットワークで学習した言語間単語埋め込みを用いる。
提案手法は2つのトピックモデルを拡張して評価する: 単語のバグ入力を仮定するLDAのバイリンガル適応と、テキスト構造の一部を意味的に一貫性のあるセグメントの境界に組み込んだモデル。
論文 参考訳(メタデータ) (2021-11-30T10:53:41Z) - Detecting Cross-Language Plagiarism using Open Knowledge Graphs [7.378348990383349]
本稿では,多言語検索モデルであるクロスランゲージオントロジーに基づく類似性分析を提案する。
CL-OSAは、オープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。
ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。
論文 参考訳(メタデータ) (2021-11-18T15:23:27Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。