論文の概要: Tracing the Evolution of Word Embedding Techniques in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2603.13271v1
- Date: Fri, 27 Feb 2026 04:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.250405
- Title: Tracing the Evolution of Word Embedding Techniques in Natural Language Processing
- Title(参考訳): 自然言語処理における単語埋め込み技術の進化の追跡
- Authors: Minh Anh Nguyen, Kuheli Sai, Minh Nguyen,
- Abstract要約: この研究は自然言語処理(NLP)文学における単語埋め込み技術の進化を辿るものである。
1954年から2025年にかけての149件の研究論文を収集・分析した。
- 参考スコア(独自算出の注目度): 1.4177919469785953
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This work traces the evolution of word-embedding techniques within the natural language processing (NLP) literature. We collect and analyze 149 research articles spanning the period from 1954 to 2025, providing both a comprehensive methodological review and a data-driven bibliometric analysis of how representation learning has developed over seven decades. Our study covers four major embedding paradigms, statistical representation-based methods (one-hot encoding, bag-of-words, TF-IDF), static word embeddings (Word2Vec, GloVe, FastText), contextual word embeddings (ELMo, BERT, GPT), and sentence/document embeddings, critically discussing the strengths, limitations, and intellectual lineage connecting each category. Beyond the methodological survey, we conduct a formal era comparison using GPT-3's release as a dividing line, applying seven hypothesis tests to quantify shifts in research focus, collaboration patterns, and institutional involvement. Our analysis reveals a dramatic post-GPT-3 paradigm shift: contextual and sentence-level methods now dominate at 6.4X the odds of the pre-GPT-3 era, mean team sizes have grown significantly (p = 0.018), and 30 entirely new techniques have emerged while 54 pre-GPT-3 methods received no further attention. These findings, combined with evidence of rising industry involvement, provide a quantitative account of how the field's epistemic priorities have been reshaped by the advent of large language models.
- Abstract(参考訳): この研究は自然言語処理(NLP)文学における単語埋め込み技術の進化を辿るものである。
1954年から2025年にかけての149件の研究論文を収集・分析し,70年以上にわたる表現学習の展開に関する総合的な方法論的考察と,データ駆動型書誌分析の両方を提供する。
本研究は, 4つの主要な埋め込みパラダイム, 統計的表現に基づく方法(ワンホット符号化, TF-IDF), 静的単語埋め込み(Word2Vec, GloVe, FastText), 文脈単語埋め込み(ELMO, BERT, GPT), 文/文書埋め込み(文/文書埋め込み)について, 各カテゴリを接続する強み, 限界, 知的系統を批判的に議論する。
方法論的調査の他に, GPT-3 リリースを分割線として, 研究焦点, コラボレーションパターン, 制度的関与の推移を定量化するために, 7 つの仮説テストを適用し, 公式な年代比較を行った。
文脈的手法と文的手法が6.4倍となり、GPT-3以前の確率が大幅に増加し(p = 0.018)、54のGPT-3メソッドがそれ以上の注意を払わず、30の全く新しいテクニックが出現した。
これらの発見は、産業の関与が高まる証拠と相まって、大規模言語モデルの出現によって、その分野の先天的な優先順位がどのように作り直されたかの定量的な説明を提供する。
関連論文リスト
- Computational Measurement of Political Positions: A Review of Text-Based Ideal Point Estimation Algorithms [0.0]
本稿では、教師なしおよび半教師付き計算テキストベース理想点推定(CT-IPE)アルゴリズムの体系的レビューを行う。
CT-IPEアルゴリズムは、議会演説、政党宣言、ソーシャルメディアからイデオロギー的嗜好を推定するために、政治科学、コミュニケーション、計算社会科学、コンピュータ科学で広く使われている。
論文 参考訳(メタデータ) (2025-11-17T11:01:09Z) - SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - Chapter 7 Review of Data-Driven Generative AI Models for Knowledge Extraction from Scientific Literature in Healthcare [1.1060196481444096]
NLPに基づくテキスト要約手法の開発について概観する。
変換器(BERT)と生成事前学習器(GPT)からの双方向表現を示す。
論文 参考訳(メタデータ) (2024-11-18T15:13:47Z) - From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models [17.04716417556556]
本稿では,分布仮説や文脈的類似性といった基礎概念を概観する。
本稿では, ELMo, BERT, GPTなどのモデルにおいて, 静的な埋め込みと文脈的埋め込みの両方について検討する。
議論は文章や文書の埋め込みにまで拡張され、集約メソッドや生成トピックモデルをカバーする。
モデル圧縮、解釈可能性、数値エンコーディング、バイアス緩和といった高度なトピックを分析し、技術的な課題と倫理的意味の両方に対処する。
論文 参考訳(メタデータ) (2024-11-06T15:40:02Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。