Fugu-MT 論文翻訳(概要): A Simple and Effective Method of Cross-Lingual Plagiarism Detection

論文の概要: A Simple and Effective Method of Cross-Lingual Plagiarism Detection

arxiv url: http://arxiv.org/abs/2304.01352v1
Date: Mon, 3 Apr 2023 20:27:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 16:16:49.969117
Title: A Simple and Effective Method of Cross-Lingual Plagiarism Detection
Title（参考訳）: 言語横断プラジャリズム検出の簡便かつ効果的な方法
Authors: Karen Avetisyan, Arthur Malajyan, Tsolak Ghukasyan
Abstract要約: 本稿では,多数の言語に適用可能な単純な言語間プラジャリズム検出手法を提案する。提案手法は,候補検索タスクにオープンな多言語セサリと,詳細な解析に事前訓練された多言語BERT言語モデルを利用する。提案手法の有効性は、いくつかの既存および新しいベンチマークで実証され、フランス語、ロシア語、アルメニア語に対する最先端の結果が得られた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a simple cross-lingual plagiarism detection method applicable to a large number of languages. The presented approach leverages open multilingual thesauri for candidate retrieval task and pre-trained multilingual BERT-based language models for detailed analysis. The method does not rely on machine translation and word sense disambiguation when in use, and therefore is suitable for a large number of languages, including under-resourced languages. The effectiveness of the proposed approach is demonstrated for several existing and new benchmarks, achieving state-of-the-art results for French, Russian, and Armenian languages.
Abstract（参考訳）: 本稿では,多数の言語に適用可能な単純な言語間プラジャリズム検出手法を提案する。提案手法は,候補検索タスクにオープンな多言語セサリと,詳細な解析に事前訓練された多言語BERT言語モデルを利用する。この方法は、使用時に機械翻訳や単語認識の曖昧さに依存しないため、非ソース言語を含む多数の言語に適している。提案手法の有効性は、いくつかの既存および新しいベンチマークで実証され、フランス語、ロシア語、アルメニア語の最先端の結果が得られた。

関連論文リスト

Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual Dictionaries [22.562544826766917]
言語間の語彙移動は、事前訓練された言語モデルを新しい言語に適応させる上で有望な役割を担っている。モノリンガルまたはパラレルコーパスを利用する既存のアプローチは、限られたリソースを持つ言語に適用する場合、課題に直面します。
論文参考訳（メタデータ） (2025-06-02T10:52:52Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文参考訳（メタデータ） (2024-08-20T04:30:26Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文参考訳（メタデータ） (2023-06-19T14:27:21Z)
Multilingual Representation Distillation with Contrastive Learning [20.715534360712425]
コントラスト学習を多言語表現蒸留に統合し,並列文の品質評価に利用する。我々は,多言語類似性探索とコーパスフィルタリングタスクによるアプローチの有効性を検証した。
論文参考訳（メタデータ） (2022-10-10T22:27:04Z)
Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。 ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文参考訳（メタデータ） (2022-09-26T10:42:17Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
Multilingual Chart-based Constituency Parse Extraction from Pre-trained Language Models [21.2879567125422]
本稿では,事前学習した言語モデルから完全(バイナリ)構文を抽出する手法を提案する。本手法を多言語 PLM に適用することにより,9つの言語から文に対する非自明なパースを導き出すことができる。
論文参考訳（メタデータ） (2020-04-08T05:42:26Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。