論文の概要: Beyond Subtokens: A Rich Character Embedding for Low-resource and Morphologically Complex Languages
- arxiv url: http://arxiv.org/abs/2602.21377v1
- Date: Tue, 24 Feb 2026 21:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.611392
- Title: Beyond Subtokens: A Rich Character Embedding for Low-resource and Morphologically Complex Languages
- Title(参考訳): Beyond Subtokens: 低リソースで形態学的に複雑な言語のためのリッチな文字埋め込み
- Authors: Felix Schneider, Maria Gogolev, Sven Sickert, Joachim Denzler,
- Abstract要約: word2vec、BERT、GPTといったトークン化とサブトークン化に基づくモデルは、自然言語処理における最先端のモデルである。
本稿では,文字列から直接単語ベクトルを計算し,意味情報と構文情報を統合することを提案する。
BERTのようなコンテキストベースの大規模言語モデルと、低リソースおよび形態学的にリッチな言語のための word2vec のような小さなモデルの両方のパフォーマンスを改善する可能性がある。
- 参考スコア(独自算出の注目度): 5.338837380875301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization and sub-tokenization based models like word2vec, BERT and the GPTs are the state-of-the-art in natural language processing. Typically, these approaches have limitations with respect to their input representation. They fail to fully capture orthographic similarities and morphological variations, especially in highly inflected and under-resource languages. To mitigate this problem, we propose to computes word vectors directly from character strings, integrating both semantic and syntactic information. We denote this transformer-based approach Rich Character Embeddings (RCE). Furthermore, we propose a hybrid model that combines transformer and convolutional mechanisms. Both vector representations can be used as a drop-in replacement for dictionary- and subtoken-based word embeddings in existing model architectures. It has the potential to improve performance for both large context-based language models like BERT and small models like word2vec for under-resourced and morphologically rich languages. We evaluate our approach on various tasks like the SWAG, declension prediction for inflected languages, metaphor and chiasmus detection for various languages. Our experiments show that it outperforms traditional token-based approaches on limited data using OddOneOut and TopK metrics.
- Abstract(参考訳): word2vec、BERT、GPTといったトークン化とサブトークン化に基づくモデルは、自然言語処理における最先端のモデルである。
通常、これらのアプローチは入力表現に関して制限がある。
彼らは正書法的な類似点と形態的変化を、特に高度に表現された、そして低リソースな言語で完全に捉えられなかった。
この問題を軽減するために,文字列から直接単語ベクトルを計算し,意味情報と構文情報を統合することを提案する。
本稿では,この変換器を用いたRich Character Embeddings (RCE) のアプローチを示す。
さらに,変換器と畳み込み機構を組み合わせたハイブリッドモデルを提案する。
両方のベクトル表現は、既存のモデルアーキテクチャにおける辞書およびサブトークンベースの単語埋め込みのドロップイン代替として使用することができる。
BERTのようなコンテキストベースの大規模言語モデルと、低リソースおよび形態学的にリッチな言語のための word2vec のような小さなモデルの両方のパフォーマンスを改善する可能性がある。
我々は,SWAG,抑揚言語における劣化予測,メタファー,キヤス検出など,様々なタスクに対するアプローチを評価した。
我々の実験では、OddOneOutとTopKのメトリクスを使用して、限られたデータに対する従来のトークンベースのアプローチよりも優れています。
関連論文リスト
- Modelling the Morphology of Verbal Paradigms: A Case Study in the Tokenization of Turkish and Hebrew [1.0857263744676489]
本稿では,トルコ語と現代ヘブライ語において,トランスフォーマーモデルがどのように複雑な動詞のパラダイムを表現するかを検討する。
トルコ語では、単言語モデルと多言語モデルの両方が成功し、トークン化がアトミックである場合や、単語を小さなサブワード単位に分割する場合などを示す。
ヘブライ語の場合、単言語モデルと多言語モデルが分岐する。
論文 参考訳(メタデータ) (2026-02-05T13:31:21Z) - chDzDT: Word-level morphology-aware language model for Algerian social media text [0.0]
chDzDT(chDzDT)は、アルジェリア語の形態に合わせた文字レベルの事前訓練言語モデルである。
トークン境界や標準化された正書法に依存することなく、孤立した単語で訓練される。
複数のスクリプトと言語的バリエーションをカバーしており、結果としてかなりの事前学習の作業負荷が生じる。
論文 参考訳(メタデータ) (2025-09-01T21:09:55Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。