論文の概要: Exploiting Sentence Order in Document Alignment
- arxiv url: http://arxiv.org/abs/2004.14523v2
- Date: Wed, 28 Oct 2020 01:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:58:36.192029
- Title: Exploiting Sentence Order in Document Alignment
- Title(参考訳): 文書アライメントにおける文順の活用
- Authors: Brian Thompson and Philipp Koehn
- Abstract要約: 本稿では,文順情報を候補生成と候補再描画の両方に組み込んだ簡単な文書アライメント手法を提案する。
提案手法は,WMT16文書アライメント共有タスクの既報結果と比較して,エラーの相対的減少率を61%とした。
- 参考スコア(独自算出の注目度): 16.200004651895014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple document alignment method that incorporates sentence
order information in both candidate generation and candidate re-scoring. Our
method results in 61% relative reduction in error compared to the best
previously published result on the WMT16 document alignment shared task. Our
method improves downstream MT performance on web-scraped Sinhala--English
documents from ParaCrawl, outperforming the document alignment method used in
the most recent ParaCrawl release. It also outperforms a comparable corpora
method which uses the same multilingual embeddings, demonstrating that
exploiting sentence order is beneficial even if the end goal is sentence-level
bitext.
- Abstract(参考訳): 文順情報を候補生成と候補再描画の両方に組み込んだ簡単な文書アライメント手法を提案する。
提案手法は,WMT16文書アライメント共有タスクの既報結果と比較して,エラーの相対的減少率を61%とした。
本手法は,paracrawl の web-scraped sinhala- english 文書における下流 mt 性能を向上し,最新の paracrawl リリースにおける文書アライメント法を上回っている。
また、同じ多言語埋め込みを使用するコーパス法よりも優れており、最終ゴールが文レベルのbitextであっても、文順の活用が有益であることを示す。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Smart Bilingual Focused Crawling of Parallel Documents [2.0273853437794584]
本稿では,より並列なコンテンツを見つけるためのスマートクローリング手法を提案する。
あるモデルは言語URLを推論し、別のモデルはURLのペアが並列文書を生成するかどうかを推測する。
その結果,両モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-05-23T16:45:59Z) - SentAlign: Accurate and Scalable Sentence Alignment [4.363828136730248]
SentAlignは、非常に大きな並列ドキュメントペアを扱うように設計された、正確な文アライメントツールである。
アライメントアルゴリズムは、数千の文からなるかなり大きな文書における全ての可能なアライメントパスを評価し、数万の文を含む文書のアライメントに分割・コンカレントアプローチを使用する。
論文 参考訳(メタデータ) (2023-11-15T14:15:41Z) - Shuffle & Divide: Contrastive Learning for Long Text [6.187839874846451]
コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。
我々の手法の鍵は、単純なテキスト拡張アルゴリズムであるShuffle and Divide (SaD)である。
我々は、20のニュースグループ、Reuters-21578、BBC、BBCSportのデータセットで教師なしテキスト分類を行うことにより、我々の手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-04-19T02:02:29Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Unsupervised Document Embedding via Contrastive Augmentation [48.71917352110245]
本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。
画像と事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは様々なパラフレーズに不変であるべきだと仮定した。
本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。
論文 参考訳(メタデータ) (2021-03-26T15:48:52Z) - A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。
我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文 参考訳(メタデータ) (2021-01-26T19:21:09Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。