論文の概要: RiverText: A Python Library for Training and Evaluating Incremental Word Embeddings from Text Data Streams
- arxiv url: http://arxiv.org/abs/2506.23192v1
- Date: Sun, 29 Jun 2025 11:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.766825
- Title: RiverText: A Python Library for Training and Evaluating Incremental Word Embeddings from Text Data Streams
- Title(参考訳): RiverText: テキストデータストリームからのインクリメンタルワード埋め込みのトレーニングと評価のためのPythonライブラリ
- Authors: Gabriel Iturra-Bocaz, Felipe Bravo-Marquez,
- Abstract要約: 本稿では,テキストデータストリームからインクリメンタルな単語埋め込みをトレーニングし,評価するためのPythonライブラリであるRiverTextを提案する。
このライブラリは、Skip-gram、Continuous Bag of Words、Word Context Matrixなど、様々なインクリメンタルな単語埋め込み技術を実装している。
我々は,既存の静的単語埋め込み評価タスクを,単語の類似性や単語分類に適応させるモジュールを実装した。
- 参考スコア(独自算出の注目度): 5.263910852465185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings have become essential components in various information retrieval and natural language processing tasks, such as ranking, document classification, and question answering. However, despite their widespread use, traditional word embedding models present a limitation in their static nature, which hampers their ability to adapt to the constantly evolving language patterns that emerge in sources such as social media and the web (e.g., new hashtags or brand names). To overcome this problem, incremental word embedding algorithms are introduced, capable of dynamically updating word representations in response to new language patterns and processing continuous data streams. This paper presents RiverText, a Python library for training and evaluating incremental word embeddings from text data streams. Our tool is a resource for the information retrieval and natural language processing communities that work with word embeddings in streaming scenarios, such as analyzing social media. The library implements different incremental word embedding techniques, such as Skip-gram, Continuous Bag of Words, and Word Context Matrix, in a standardized framework. In addition, it uses PyTorch as its backend for neural network training. We have implemented a module that adapts existing intrinsic static word embedding evaluation tasks for word similarity and word categorization to a streaming setting. Finally, we compare the implemented methods with different hyperparameter settings and discuss the results. Our open-source library is available at https://github.com/dccuchile/rivertext.
- Abstract(参考訳): 単語の埋め込みは、ランキング、文書分類、質問応答など、様々な情報検索や自然言語処理タスクにおいて欠かせない要素となっている。
しかし、広く使われているにもかかわらず、伝統的な単語埋め込みモデルは静的な性質に限界があり、ソーシャルメディアやウェブ(例えば、新しいハッシュタグやブランド名)などのソースに現れる、絶え間なく進化する言語パターンに適応する能力を損なう。
この問題を解決するために,新たな言語パターンに対応して動的に単語表現を更新し,連続データストリームを処理するインクリメンタルな単語埋め込みアルゴリズムが導入された。
本稿では,テキストデータストリームからインクリメンタルな単語埋め込みをトレーニングし,評価するためのPythonライブラリであるRiverTextを提案する。
本ツールは,ソーシャルメディアの分析などのストリーミングシナリオにおいて,単語の埋め込みを扱う情報検索と自然言語処理コミュニティのためのリソースである。
このライブラリは、Skip-gram、Continuous Bag of Words、Word Context Matrixといった様々なインクリメンタルな単語埋め込み技術を標準化されたフレームワークで実装している。
さらに、ニューラルネットワークトレーニングのバックエンドとしてPyTorchを使用している。
我々は,既存の静的単語埋め込み評価タスクを,単語の類似性や単語分類に適応させるモジュールを実装した。
最後に、実装されたメソッドを異なるハイパーパラメータ設定と比較し、結果について議論する。
オープンソースライブラリはhttps://github.com/dccuchile/rivertext.comで公開しています。
関連論文リスト
- An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - PWESuite: Phonetic Word Embeddings and Tasks They Facilitate [37.09948594297879]
音声による単語の埋め込みを構築するために,音声特徴を用いた3つの手法を開発した。
また、過去、現在、将来のメソッドを適切に評価するためのタスクスイートも提供します。
論文 参考訳(メタデータ) (2023-04-05T16:03:42Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。