論文の概要: Understanding Cross-Lingual Alignment -- A Survey
- arxiv url: http://arxiv.org/abs/2404.06228v1
- Date: Tue, 9 Apr 2024 11:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:50:19.030056
- Title: Understanding Cross-Lingual Alignment -- A Survey
- Title(参考訳): 言語間のアライメントを理解する - サーベイ
- Authors: Katharina Hämmerl, Jindřich Libovický, Alexander Fraser,
- Abstract要約: 言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
- 参考スコア(独自算出の注目度): 52.572071017877704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual alignment, the meaningful similarity of representations across languages in multilingual language models, has been an active field of research in recent years. We survey the literature of techniques to improve cross-lingual alignment, providing a taxonomy of methods and summarising insights from throughout the field. We present different understandings of cross-lingual alignment and their limitations. We provide a qualitative summary of results from a large number of surveyed papers. Finally, we discuss how these insights may be applied not only to encoder models, where this topic has been heavily studied, but also to encoder-decoder or even decoder-only models, and argue that an effective trade-off between language-neutral and language-specific information is key.
- Abstract(参考訳): 多言語言語モデルにおける言語間の表現の有意義な類似性である言語間アライメントは、近年、活発な研究分野となっている。
我々は,言語間のアライメントを改善する手法の文献を調査し,手法の分類を提供し,各分野の洞察を要約する。
我々は、言語間のアライメントとその制限について、異なる理解を提示する。
多数の調査論文から得られた結果の質的な要約を提供する。
最後に、この知見をエンコーダモデルだけでなく、エンコーダデコーダやデコーダのみのモデルにも適用し、言語ニュートラルと言語固有の情報の効果的なトレードオフが重要であると論じる。
関連論文リスト
- Locally Measuring Cross-lingual Lexical Alignment: A Domain and Word Level Perspective [15.221506468189345]
親族領域における語彙的ギャップを用いた合成検証と新しい自然主義的検証の両方を解析する手法を提案する。
我々の分析は16の多様な言語にまたがっており、新しい言語モデルを使用することで改善の余地があることを実証している。
論文 参考訳(メタデータ) (2024-10-07T16:37:32Z) - Exploring Alignment in Shared Cross-lingual Spaces [15.98134426166435]
多言語モデル内の潜在概念を明らかにするためにクラスタリングを採用しています。
本分析は,これらの概念のテキストアライメントとテキストオーバーラップを様々な言語で定量化することに焦点を当てている。
本研究は、3つの多言語モデル(textttmT5, texttmBERT, textttXLM-R)と3つの下流タスク(Machine Translation, Named Entity Recognition, Sentiment Analysis)を含む。
論文 参考訳(メタデータ) (2024-05-23T13:20:24Z) - InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling [40.54497836775837]
言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:49:43Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。