論文の概要: Exploring Intra and Inter-language Consistency in Embeddings with ICA
- arxiv url: http://arxiv.org/abs/2406.12474v1
- Date: Tue, 18 Jun 2024 10:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:27:22.536591
- Title: Exploring Intra and Inter-language Consistency in Embeddings with ICA
- Title(参考訳): ICAを用いた埋め込みにおける言語内および言語間一貫性の探索
- Authors: Rongzhi Li, Takeru Matsuda, Hitomi Yanaka,
- Abstract要約: 独立成分分析(ICA)は、独立鍵特徴を識別することによって、より明確な意味軸を生成する。
これまでの研究では、ICAが言語全体にわたって普遍的な意味軸を明らかにする可能性を示している。
セマンティック軸の整合性は、一つの言語内と複数の言語にまたがる2つの方法で検討した。
- 参考スコア(独自算出の注目度): 17.87419386215488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings represent words as multidimensional real vectors, facilitating data analysis and processing, but are often challenging to interpret. Independent Component Analysis (ICA) creates clearer semantic axes by identifying independent key features. Previous research has shown ICA's potential to reveal universal semantic axes across languages. However, it lacked verification of the consistency of independent components within and across languages. We investigated the consistency of semantic axes in two ways: both within a single language and across multiple languages. We first probed into intra-language consistency, focusing on the reproducibility of axes by performing ICA multiple times and clustering the outcomes. Then, we statistically examined inter-language consistency by verifying those axes' correspondences using statistical tests. We newly applied statistical methods to establish a robust framework that ensures the reliability and universality of semantic axes.
- Abstract(参考訳): 単語の埋め込みは、単語を多次元の実ベクトルとして表現し、データ解析と処理を容易にするが、しばしば解釈するのが困難である。
独立成分分析(ICA)は、独立鍵特徴を識別することによって、より明確な意味軸を生成する。
これまでの研究では、ICAが言語全体にわたって普遍的な意味軸を明らかにする可能性を示している。
しかし、言語内および言語間の独立したコンポーネントの一貫性の検証に欠けていた。
セマンティック軸の整合性は、一つの言語内と複数の言語にまたがる2つの方法で検討した。
まず,ICAを複数回行い,その結果をクラスタリングすることで,軸の再現性に着目し,言語内整合性について検討した。
そして,これらの軸の対応を統計的に検証し,言語間の整合性を統計的に検証した。
我々は,意味軸の信頼性と普遍性を保証する頑健な枠組みを確立するために,統計的手法を新たに導入した。
関連論文リスト
- Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - How well do distributed representations convey contextual lexical semantics: a Thesis Proposal [3.3585951129432323]
本稿では,現代ニューラルネットワークによる語彙意味の符号化における分散表現の有効性について検討する。
文脈に影響された意味の関連性と類似性に基づいて,曖昧さの4つの源を同定する。
次に、多言語データセットの収集や構築、様々な言語モデルの利用、言語解析ツールの利用により、これらの情報源を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-02T14:08:51Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Conditional Independence Testing via Latent Representation Learning [2.566492438263125]
LCIT(Latent representation based Conditional Independence Test)は、表現学習に基づく条件付き独立テストのための新しい非パラメトリック手法である。
我々の主な貢献は、Z が与えられた X と Y の独立性をテストするための生成的枠組みの提案である。
論文 参考訳(メタデータ) (2022-09-04T07:16:03Z) - Corpus Similarity Measures Remain Robust Across Diverse Languages [0.0]
本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。
目的は、(i)同じ言語から異なるコーパスの間の距離を定量化し、(ii)個々のコーパスの均一性を定量化することである。
その結果, コーパス類似度の測定は, 言語家族, 書記システム, 形態素の種類にまたがる妥当性を保っていることがわかった。
論文 参考訳(メタデータ) (2022-06-09T08:17:16Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Fine-Grained Analysis of Cross-Linguistic Syntactic Divergences [18.19093600136057]
並列コーパスから任意の言語対の発散パターンを抽出するフレームワークを提案する。
我々のフレームワークは、言語間の相違の詳細な図を提供し、以前のアプローチを一般化し、完全に自動化することを示します。
論文 参考訳(メタデータ) (2020-05-07T13:05:03Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。