論文の概要: Locally Measuring Cross-lingual Lexical Alignment: A Domain and Word Level Perspective
- arxiv url: http://arxiv.org/abs/2410.07239v1
- Date: Mon, 7 Oct 2024 16:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:26:45.652401
- Title: Locally Measuring Cross-lingual Lexical Alignment: A Domain and Word Level Perspective
- Title(参考訳): 言語間語彙アライメントの局所的測定:ドメインと単語レベルの観点から
- Authors: Taelin Karidi, Eitan Grossman, Omri Abend,
- Abstract要約: 親族領域における語彙的ギャップを用いた合成検証と新しい自然主義的検証の両方を解析する手法を提案する。
我々の分析は16の多様な言語にまたがっており、新しい言語モデルを使用することで改善の余地があることを実証している。
- 参考スコア(独自算出の注目度): 15.221506468189345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP research on aligning lexical representation spaces to one another has so far focused on aligning language spaces in their entirety. However, cognitive science has long focused on a local perspective, investigating whether translation equivalents truly share the same meaning or the extent that cultural and regional influences result in meaning variations. With recent technological advances and the increasing amounts of available data, the longstanding question of cross-lingual lexical alignment can now be approached in a more data-driven manner. However, developing metrics for the task requires some methodology for comparing metric efficacy. We address this gap and present a methodology for analyzing both synthetic validations and a novel naturalistic validation using lexical gaps in the kinship domain. We further propose new metrics, hitherto unexplored on this task, based on contextualized embeddings. Our analysis spans 16 diverse languages, demonstrating that there is substantial room for improvement with the use of newer language models. Our research paves the way for more accurate and nuanced cross-lingual lexical alignment methodologies and evaluation.
- Abstract(参考訳): 語彙表現空間を相互に整合させるNLP研究は、これまで言語空間全体を整合させることに重点を置いてきた。
しかし、認知科学は長い間、地域的な視点に重点を置いており、翻訳の同義語が真に同じ意味を共有しているか、文化や地域の影響が意味の変化をもたらす範囲を共有しているかどうかを調査してきた。
近年の技術進歩と利用可能なデータの量の増加により、言語間の語彙的アライメントという長年の問題は、よりデータ駆動的な方法でアプローチすることができる。
しかしながら、タスクのためのメトリクスの開発には、メトリクスの有効性を比較するための方法論が必要である。
このギャップに対処し、親族領域における語彙的ギャップを用いた合成検証と新しい自然主義的検証の両方を解析するための方法論を提案する。
さらに、コンテキスト化された埋め込みに基づいて、このタスクで探索されていない新しいメトリクスを提案する。
我々の分析は16の多様な言語にまたがっており、新しい言語モデルを使用することで改善の余地があることを実証している。
我々の研究は、より正確でニュアンスの高い言語間語彙アライメント手法と評価の道を開いた。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence [20.507596002357655]
コヒーレントテキストは本質的に文間の連続的かつ密着的な相互作用を示す。
BBScore(英: BBScore)は、ブラウン橋理論において、テキストコヒーレンスを評価するための基準のない計量である。
論文 参考訳(メタデータ) (2023-12-28T08:34:17Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。