論文の概要: Metric Learning in Multilingual Sentence Similarity Measurement for
Document Alignment
- arxiv url: http://arxiv.org/abs/2108.09495v1
- Date: Sat, 21 Aug 2021 11:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 07:23:51.902050
- Title: Metric Learning in Multilingual Sentence Similarity Measurement for
Document Alignment
- Title(参考訳): 文書アライメントのための多言語文類似度測定におけるメトリック学習
- Authors: Charith Rajitha, Lakmali Piyarathne, Dilan Sachintha, Surangika
Ranathunga
- Abstract要約: 本稿では,タスク固有距離測定の導出にメトリックラーニングを用いる。
これらの測定は教師付きであり、距離測定基準は並列データセットを用いて訓練される。
英語、シンハラ語、タミル語に属するデータセットを用いて、これらのタスク固有の教師なし距離学習指標が教師なし距離学習指標よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document alignment techniques based on multilingual sentence representations
have recently shown state of the art results. However, these techniques rely on
unsupervised distance measurement techniques, which cannot be fined-tuned to
the task at hand. In this paper, instead of these unsupervised distance
measurement techniques, we employ Metric Learning to derive task-specific
distance measurements. These measurements are supervised, meaning that the
distance measurement metric is trained using a parallel dataset. Using a
dataset belonging to English, Sinhala, and Tamil, which belong to three
different language families, we show that these task-specific supervised
distance learning metrics outperform their unsupervised counterparts, for
document alignment.
- Abstract(参考訳): 多言語文表現に基づく文書アライメント技術は,最近,その成果が示された。
しかし、これらの手法は教師なし距離測定技術に依存しており、手作業では微調整できない。
本稿では,これらの教師なし距離測定手法の代わりに,タスク固有距離測定の導出にメトリックラーニングを用いる。
これらの測定は教師あり、つまり距離測定メトリックは並列データセットを使って訓練される。
3つの異なる言語族に属する英語、シンハラ語、タミル語に属するデータセットを用いて、これらのタスク固有の教師付き距離学習メトリクスが、教師なし距離学習指標よりもドキュメントアライメントに優れていることを示す。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文 参考訳(メタデータ) (2022-12-09T22:10:46Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - USCORE: An Effective Approach to Fully Unsupervised Evaluation Metrics
for Machine Translation [23.381986209234157]
本研究では,機械翻訳のための教師なし評価指標を開発する。
評価基準誘導, 並列コーパスマイニング, MTシステムの相似性と相乗効果を利用する。
私たちは、完全に教師なしのメトリクスが効果的であること、すなわち5つの評価データセットのうち4つで監督対象の競合に勝っていることを示しています。
論文 参考訳(メタデータ) (2022-02-21T09:22:29Z) - Self-Supervised Metric Learning in Multi-View Data: A Downstream Task
Perspective [2.01243755755303]
マルチビューデータの文脈において,自己教師付きメトリック学習が下流タスクにどのような効果をもたらすかを検討する。
本稿では, 下流タスクにおいて, 目標距離がいくつかの望ましい特性を満たすことを示す。
本分析では,4つの下流タスクにおいて,自己教師付きメトリック学習による改善を特徴付ける。
論文 参考訳(メタデータ) (2021-06-14T02:34:33Z) - MLAS: Metric Learning on Attributed Sequences [13.689383530299502]
メートル法学習への従来のアプローチは、主にデータ属性に基づいてマハラノビス距離メートル法を学ぶことに焦点を当てていた。
我々は,属性列間の相違を効果的に測定する距離メトリックを学習するために,MLASと呼ばれる深層学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T19:35:42Z) - Style-transfer and Paraphrase: Looking for a Sensible Semantic
Similarity Metric [18.313879914379005]
文献で広く使われている指標のどれも、これらの課題における人間の判断に十分近いものではないことを示す。
最近提案されたいくつかのメトリクスは同等の結果を提供するが、Word Mover Distanceが最も合理的なソリューションであることが示されている。
論文 参考訳(メタデータ) (2020-04-10T11:52:06Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。