Fugu-MT 論文翻訳(概要): Combating the Curse of Multilinguality in Cross-Lingual WSD by Aligning Sparse Contextualized Word Representations

論文の概要: Combating the Curse of Multilinguality in Cross-Lingual WSD by Aligning Sparse Contextualized Word Representations

arxiv url: http://arxiv.org/abs/2307.13776v1
Date: Tue, 25 Jul 2023 19:20:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 14:24:51.682689
Title: Combating the Curse of Multilinguality in Cross-Lingual WSD by Aligning Sparse Contextualized Word Representations
Title（参考訳）: 余分な文脈表現による言語間WSDの多言語性曲線の圧縮
Authors: G\'abor Berend
Abstract要約: 本稿では,辞書学習による文脈表現の疎化の有効性を示す厳密な実験を報告する。以上の結果から,Fスコアの平均値が6.5ポイント近く向上することが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we advocate for using large pre-trained monolingual language models in cross lingual zero-shot word sense disambiguation (WSD) coupled with a contextualized mapping mechanism. We also report rigorous experiments that illustrate the effectiveness of employing sparse contextualized word representations obtained via a dictionary learning procedure. Our experimental results demonstrate that the above modifications yield a significant improvement of nearly 6.5 points of increase in the average F-score (from 62.0 to 68.5) over a collection of 17 typologically diverse set of target languages. We release our source code for replicating our experiments at https://github.com/begab/sparsity_makes_sense.
Abstract（参考訳）: 本稿では,言語横断的なゼロショット・ワードセンス曖昧化(WSD)と文脈対応型マッピング機構を併用した,大規模単言語モデルの実現を提唱する。また,辞書学習手順で得られた文脈化単語表現のスパース化の有効性を示す厳密な実験を報告する。実験の結果,17種類の多種多様な対象言語の集合に対して,f-scoreの平均値が62.0から68.5に約6.5ポイント向上することがわかった。実験を複製するためのソースコードをhttps://github.com/begab/sparsity_makes_senseでリリースします。

関連論文リスト

MultiMind at SemEval-2025 Task 7: Crosslingual Fact-Checked Claim Retrieval via Multi-Source Alignment [2.470492053534817]
本稿では,SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrievalについて述べる。本稿では,TriAlignerについて紹介する。TriAlignerは,2つのエンコーダアーキテクチャを対照的な学習で活用し,異なるモダリティにまたがるネイティブとイングリッシュの両方の翻訳を取り入れた新しいアプローチである。本手法は,複数の言語にまたがるアライメントの相対的重要性を学習することにより,複数の言語にまたがるクレームを効果的に検索する。
論文参考訳（メタデータ） (2025-12-24T05:14:40Z)
Happiness is Sharing a Vocabulary: A Study of Transliteration Methods [11.101903956523094]
翻訳は多言語NLPにおける様々な言語間のギャップを埋めるための有望な手段として登場した。共用スクリプト,重複するトークン語彙,共有音韻が多言語モデルの性能に与える影響について検討する。
論文参考訳（メタデータ） (2025-10-12T22:34:40Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文参考訳（メタデータ） (2024-05-25T09:46:07Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Retrofitting Multilingual Sentence Embeddings with Abstract Meaning Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2022-10-18T11:37:36Z)
Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文参考訳（メタデータ） (2022-01-29T05:48:42Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
Cross-lingual Text Classification with Heterogeneous Graph Neural Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2021-05-24T12:45:42Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)
Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文参考訳（メタデータ） (2019-12-28T16:18:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。