論文の概要: A Comparative Analysis of Static Word Embeddings for Hungarian
- arxiv url: http://arxiv.org/abs/2505.07809v1
- Date: Mon, 12 May 2025 17:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.534127
- Title: A Comparative Analysis of Static Word Embeddings for Hungarian
- Title(参考訳): ハンガリー語における静的な単語埋め込みの比較分析
- Authors: Máté Gedeon,
- Abstract要約: 本稿では,ハンガリー語に対する様々な静的単語埋め込みの包括的解析について述べる。
本研究は,これらの内在的および外在的タスクへの埋め込みを評価し,その性能の全体像を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comprehensive analysis of various static word embeddings for Hungarian, including traditional models such as Word2Vec, FastText, as well as static embeddings derived from BERT-based models using different extraction methods. We evaluate these embeddings on both intrinsic and extrinsic tasks to provide a holistic view of their performance. For intrinsic evaluation, we employ a word analogy task, which assesses the embeddings ability to capture semantic and syntactic relationships. Our results indicate that traditional static embeddings, particularly FastText, excel in this task, achieving high accuracy and mean reciprocal rank (MRR) scores. Among the BERT-based models, the X2Static method for extracting static embeddings demonstrates superior performance compared to decontextualized and aggregate methods, approaching the effectiveness of traditional static embeddings. For extrinsic evaluation, we utilize a bidirectional LSTM model to perform Named Entity Recognition (NER) and Part-of-Speech (POS) tagging tasks. The results reveal that embeddings derived from dynamic models, especially those extracted using the X2Static method, outperform purely static embeddings. Notably, ELMo embeddings achieve the highest accuracy in both NER and POS tagging tasks, underscoring the benefits of contextualized representations even when used in a static form. Our findings highlight the continued relevance of static word embeddings in NLP applications and the potential of advanced extraction methods to enhance the utility of BERT-based models. This piece of research contributes to the understanding of embedding performance in the Hungarian language and provides valuable insights for future developments in the field. The training scripts, evaluation codes, restricted vocabulary, and extracted embeddings will be made publicly available to support further research and reproducibility.
- Abstract(参考訳): 本稿では,Word2VecやFastTextといった伝統的なモデルや,異なる抽出手法を用いたBERTモデルから派生した静的な埋め込みなど,ハンガリー語に対する様々な静的な単語埋め込みの包括的分析を行う。
本研究は,これらの内在的および外在的タスクへの埋め込みを評価し,その性能の全体像を提示する。
そこで本研究では,意味的・統語的関係を抽出する埋め込み能力を評価する単語類似タスクを提案する。
以上の結果から,従来の静的埋め込み,特にFastTextはこのタスクに優れ,高い精度と平均相反ランク(MRR)スコアが得られた。
BERTをベースとしたモデルでは,静的埋め込みを抽出するX2Static法は,非コンテキスト化や集約法よりも優れた性能を示し,従来の静的埋め込みの有効性に迫られている。
外部評価には、双方向LSTMモデルを用いて、名前付きエンティティ認識(NER)とPOS(Part-of-Speech)タグ付けタスクを実行する。
その結果, 動的モデル, 特にX2Static法を用いて抽出した埋め込みは, 純粋に静的な埋め込みよりも優れていることがわかった。
特に、ELMo の埋め込みは NER と POS のタグ付けタスクにおいて最も正確であり、静的形式でもコンテキスト化された表現の利点が強調される。
本研究は,NLPアプリケーションにおける静的単語埋め込みの持続的関連と,BERTモデルの有用性を高めるための高度な抽出手法の可能性を明らかにするものである。
この研究はハンガリー語への埋め込み性能の理解に寄与し、この分野の今後の発展に貴重な洞察を与えている。
トレーニングスクリプト、評価コード、制限された語彙、抽出された埋め込みは、さらなる研究と再現性をサポートするために公開されます。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Manual Verbalizer Enrichment for Few-Shot Text Classification [1.860409237919611]
acrshortmaveは、クラスラベルの豊か化による動詞化のためのアプローチである。
本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。
論文 参考訳(メタデータ) (2024-10-08T16:16:47Z) - Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models [20.107727903240065]
本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。
本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
論文 参考訳(メタデータ) (2024-08-02T15:00:05Z) - Contextual Dictionary Lookup for Knowledge Graph Completion [32.493168863565465]
知識グラフ補完(KGC)は、知識グラフの不完全性(KGs)を解決することを目的として、既知の三重項から欠落するリンクを予測する。
既存の埋め込みモデルは、それぞれの関係を一意なベクトルにマッピングし、異なる実体の下でそれらの特定の粒度のセマンティクスを見渡す。
本稿では,従来の埋め込みモデルを用いて,関係の微粒なセマンティクスをエンド・ツー・エンドで学習することのできる,文脈辞書検索を利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T12:13:41Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Analysis and Evaluation of Language Models for Word Sense Disambiguation [18.001457030065712]
トランスフォーマーベースの言語モデルは、嵐によってNLPの多くの分野を取り込んでいる。
BERTは、ワードセンス毎に限られた数のサンプルが利用できる場合でも、高いレベルの感覚の区別を正確に捉えることができる。
BERTとその派生種は既存の評価ベンチマークの大部分を支配している。
論文 参考訳(メタデータ) (2020-08-26T15:07:07Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。