論文の概要: BiMax: Bidirectional MaxSim Score for Document-Level Alignment
- arxiv url: http://arxiv.org/abs/2510.15577v1
- Date: Fri, 17 Oct 2025 12:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.611905
- Title: BiMax: Bidirectional MaxSim Score for Document-Level Alignment
- Title(参考訳): BiMax:ドキュメントレベルアライメントのための双方向MaxSimスコア
- Authors: Xiaotian Wang, Takehito Utsuro, Masaaki Nagata,
- Abstract要約: 大量のWebマイニングデータを考えると、正確性とスピードの両方を考慮する必要がある。
そこで我々は,doc-to-doc類似性を計算するために,言語間双方向マックススコア(BiMax)を提案する。
BiMaxは、約100倍の速度でOTに匹敵する精度を得る。
- 参考スコア(独自算出の注目度): 11.138423674755563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document alignment is necessary for the hierarchical mining (Ba\~n\'on et al., 2020; Morishita et al., 2022), which aligns documents across source and target languages within the same web domain. Several high precision sentence embedding-based methods have been developed, such as TK-PERT (Thompson and Koehn, 2020) and Optimal Transport (OT) (Clark et al., 2019; El-Kishky and Guzm\'an, 2020). However, given the massive scale of web mining data, both accuracy and speed must be considered. In this paper, we propose a cross-lingual Bidirectional Maxsim score (BiMax) for computing doc-to-doc similarity, to improve efficiency compared to the OT method. Consequently, on the WMT16 bilingual document alignment task, BiMax attains accuracy comparable to OT with an approximate 100-fold speed increase. Meanwhile, we also conduct a comprehensive analysis to investigate the performance of current state-of-the-art multilingual sentence embedding models. All the alignment methods in this paper are publicly available as a tool called EmbDA (https://github.com/EternalEdenn/EmbDA).
- Abstract(参考訳): 文書のアライメントは階層的マイニング(Ba\~n\'on et al , 2020; Morishita et al , 2022)のために必要であり、同じWebドメイン内のソース言語とターゲット言語をまたいだドキュメントのアライメントを行う。
TK-PERT (Thompson and Koehn, 2020) や Optimal Transport (OT) (Clark et al , 2019; El-Kishky and Guzm\'an, 2020) など,高精度な文埋め込み方式が開発されている。
しかし、大規模なWebマイニングデータを考えると、精度と速度の両方を考慮する必要がある。
本稿では,OT法と比較して効率向上を図るために,doc-to-doc類似性を計算するための言語間双方向マックススコア(BiMax)を提案する。
これにより、WMT16バイリンガル文書アライメントタスクにおいて、BiMaxはおよそ100倍の速度でOTに匹敵する精度を得る。
また,現在最先端の多言語文埋め込みモデルの性能を総合的に検討する。
本論文のアライメントメソッドはすべて,EmbDA(https://github.com/EternalEdenn/EmbDA)と呼ばれるツールとして公開されている。
関連論文リスト
- Align-then-Slide: A complete evaluation framework for Ultra-Long Document-Level Machine Translation [26.418216341998953]
ウルトラロングドク-mtの完全な評価フレームワークであるtextittextbfAlign-then-Slide を導入する。
Alignの段階では、文レベルのソースターゲット対応を自動的に推測し、ターゲットを元の文番号に合わせるように再構築する。
n-Chunkスライディング評価段階において,多粒度評価のための1-,2-,3-,4-chunkの平均値を算出する。
論文 参考訳(メタデータ) (2025-09-04T01:50:20Z) - Pralekha: Cross-Lingual Document Alignment for Indic Languages [19.909934641412942]
文書レベルのアライメント技術を評価するための大規模ベンチマークであるPRALEKHAを紹介する。
また、細粒度文書アライメントのための新しい計量である文書アライメント係数(DAC)を提案する。
論文 参考訳(メタデータ) (2024-11-28T12:17:24Z) - A ripple in time: a discontinuity in American history [49.84018914962972]
歴史的データセットの時間的側面(言語拡張と無関係)と人格的側面(著者帰属)を明らかにするための新しいアプローチを提案する。
我々は過去42人のアメリカ合衆国大統領によって与えられた連邦の住所に対する我々のアプローチを例示する。
論文 参考訳(メタデータ) (2023-12-02T17:24:17Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Machine and Deep Learning Methods with Manual and Automatic Labelling
for News Classification in Bangla Language [0.36832029288386137]
本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。
MLアルゴリズムは、ロジスティック回帰(LR)、グラディエントDescent(SGD)、サポートベクトルマシン(SVM)、ランダムフォレスト(RF)、K-Nearest Neighbour(KNN)である。
本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。
論文 参考訳(メタデータ) (2022-10-19T21:53:49Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。