論文の概要: Do Pretrained Contextual Language Models Distinguish between Hebrew Homograph Analyses?
- arxiv url: http://arxiv.org/abs/2405.07099v1
- Date: Sat, 11 May 2024 21:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:18:14.102020
- Title: Do Pretrained Contextual Language Models Distinguish between Hebrew Homograph Analyses?
- Title(参考訳): ヘブライ語のホモグラフ分析における事前制約付き文脈言語モデルの影響
- Authors: Avi Shmidman, Cheyn Shmuel Shmidman, Dan Bareket, Moshe Koppel, Reut Tsarfaty,
- Abstract要約: 本研究では,ヘブライ語のホモグラフの曖昧さについて,事前学習言語モデルを用いて検討する。
現代ヘブライ語における文脈的埋め込みは,非文脈的埋め込みよりも優れていることを示す。
また、これらの埋め込みは、バランスの取れた分布と歪んだ分布の両方のホモグラフに対して等しく有効であることを示す。
- 参考スコア(独自算出の注目度): 12.631897904322676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semitic morphologically-rich languages (MRLs) are characterized by extreme word ambiguity. Because most vowels are omitted in standard texts, many of the words are homographs with multiple possible analyses, each with a different pronunciation and different morphosyntactic properties. This ambiguity goes beyond word-sense disambiguation (WSD), and may include token segmentation into multiple word units. Previous research on MRLs claimed that standardly trained pre-trained language models (PLMs) based on word-pieces may not sufficiently capture the internal structure of such tokens in order to distinguish between these analyses. Taking Hebrew as a case study, we investigate the extent to which Hebrew homographs can be disambiguated and analyzed using PLMs. We evaluate all existing models for contextualized Hebrew embeddings on a novel Hebrew homograph challenge sets that we deliver. Our empirical results demonstrate that contemporary Hebrew contextualized embeddings outperform non-contextualized embeddings; and that they are most effective for disambiguating segmentation and morphosyntactic features, less so regarding pure word-sense disambiguation. We show that these embeddings are more effective when the number of word-piece splits is limited, and they are more effective for 2-way and 3-way ambiguities than for 4-way ambiguity. We show that the embeddings are equally effective for homographs of both balanced and skewed distributions, whether calculated as masked or unmasked tokens. Finally, we show that these embeddings are as effective for homograph disambiguation with extensive supervised training as with a few-shot setup.
- Abstract(参考訳): 半形態的に豊かな言語(MRL)は、極端な単語の曖昧さによって特徴づけられる。
ほとんどの母音は標準文で省略されるため、多くの単語は複数の可能な分析が可能なホモグラフであり、それぞれが異なる発音と異なる形態的特性を持つ。
この曖昧さは、単語センスの曖昧さ(WSD)を超えており、トークンのセグメンテーションを複数のワード単位に含めることもある。
MRLに関する以前の研究は、ワードピースに基づく標準訓練済み言語モデル(PLM)は、これらの分析を区別するためにこれらのトークンの内部構造を十分に捉えていないと主張した。
ヘブライ語をケーススタディとして、ヘブライ語ホモグラフの曖昧さの程度を考察し、PLMを用いて分析する。
我々は,新しいヘブライ語ホモグラフチャレンジセットを用いて,文脈化ヘブライ語埋め込みの既存モデルを評価した。
実験の結果,現代ヘブライ語における文脈的埋め込みは,非コンテクスト的埋め込みよりも優れており,単語センスの曖昧さよりも,セグメンテーションや形態的特徴の曖昧化に最も有効であることが示された。
これらの埋め込みは,単語分割数が限られている場合に有効であり,2方向・3方向のあいまいさの方が4方向のあいまいさよりも効果的であることを示す。
埋め込みは、マスクまたはマスクされていないトークンとして計算されたとしても、バランスの取れた分布と歪んだ分布の両方のホモグラフに対して等しく有効であることを示す。
最後に、これらの埋め込みは、数ショットのセットアップと同様、広範囲に教師付きトレーニングを施したホモグラフの曖昧化に有効であることを示す。
関連論文リスト
- Bidirectional Transformer Representations of (Spanish) Ambiguous Words in Context: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
大規模な言語モデルの文脈化された単語埋め込みを英語以外の言語で比較する研究はほとんどない。
スペイン語のあいまいな名詞の複数の双方向トランスフォーマー(BERT)意味表現を文脈で評価した。
様々なBERTに基づくLLMの文脈的意味表現は、人間の判断に多少のばらつきがあるが、人間のベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。
本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。
我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文 参考訳(メタデータ) (2024-05-24T14:56:36Z) - Breaking Down Word Semantics from Pre-trained Language Models through
Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。
2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文 参考訳(メタデータ) (2023-10-08T11:07:19Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Novel Challenge Set for Hebrew Morphological Disambiguation and
Diacritics Restoration [8.704581499692651]
私たちはヘブライ語のホモグラフに挑戦セットを提供します。
ヘブライ語の曖昧さのSOTAは、アンバランスな曖昧さのケースでは不十分であることを示す。
我々は21語すべてに対して新たな最先端を実現し、平均F1スコアを0.67から0.95に改善した。
論文 参考訳(メタデータ) (2020-10-06T16:34:03Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。