論文の概要: CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models
- arxiv url: http://arxiv.org/abs/2305.14214v2
- Date: Mon, 23 Oct 2023 11:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:53:20.558730
- Title: CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models
- Title(参考訳): CompoundPiece: 言語モデルの分解性能の評価と改善
- Authors: Benjamin Minixhofer, Jonas Pfeiffer, Ivan Vuli\'c
- Abstract要約: 複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
- 参考スコア(独自算出の注目度): 77.45934004406283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many languages possess processes of joining two or more words to create
compound words, previous studies have been typically limited only to languages
with excessively productive compound formation (e.g., German, Dutch) and there
is no public dataset containing compound and non-compound words across a large
number of languages. In this work, we systematically study decompounding, the
task of splitting compound words into their constituents, at a wide scale. We
first address the data gap by introducing a dataset of 255k compound and
non-compound words across 56 diverse languages obtained from Wiktionary. We
then use this dataset to evaluate an array of Large Language Models (LLMs) on
the decompounding task. We find that LLMs perform poorly, especially on words
which are tokenized unfavorably by subword tokenization. We thus introduce a
novel methodology to train dedicated models for decompounding. The proposed
two-stage procedure relies on a fully self-supervised objective in the first
stage, while the second, supervised learning stage optionally fine-tunes the
model on the annotated Wiktionary data. Our self-supervised models outperform
the prior best unsupervised decompounding models by 13.9% accuracy on average.
Our fine-tuned models outperform all prior (language-specific) decompounding
tools. Furthermore, we use our models to leverage decompounding during the
creation of a subword tokenizer, which we refer to as CompoundPiece.
CompoundPiece tokenizes compound words more favorably on average, leading to
improved performance on decompounding over an otherwise equivalent model using
SentencePiece tokenization.
- Abstract(参考訳): 多くの言語は複合語を作るために2つ以上の単語を結合するプロセスを持っているが、以前の研究は一般的に過剰に生産的な複合語(例えばドイツ語、オランダ語)を持つ言語に限られており、多くの言語に複合語と非複合語を含む公開データセットは存在しない。
本研究では, 複合語を構成語に分割する作業である分解処理を, 大規模に体系的に研究する。
まず、Wiktionaryから得られた56の多様な言語に255kの複合語と非複合語のデータセットを導入することで、データギャップに対処する。
次に、このデータセットを使用して、分割タスク上のLarge Language Model(LLM)の配列を評価する。
LLMは、特にサブワードトークン化によって不利にトークン化される単語に対して、性能が良くないことがわかった。
そこで本研究では,分解のための専用モデルをトレーニングするための新しい手法を提案する。
提案した2段階の手順は、第1段階で完全に自己制御された目的に依存し、第2段階の教師付き学習段階は、注釈付きウィキオナリーデータに基づいてモデルを任意に微調整する。
我々の自己教師付きモデルは、以前の最良の教師なし推論モデルよりも平均13.9%正確である。
私たちの微調整モデルは、以前の(言語固有の)分解ツールよりも優れています。
さらに,このモデルを用いて,サブワードトークン生成時のデコンパリングを活用し,これを複合ピースと呼ぶ。
コンプレックスピースは、平均でより好適に複合語をトークン化するので、文節のトークン化を用いた同等のモデル上での分解のパフォーマンスが向上する。
関連論文リスト
- Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Kvistur 2.0: a BiLSTM Compound Splitter for Icelandic [2.6763498831034043]
アイスランド語複合語を分割するための文字ベースBiLSTMモデルを提案する。
各種トレーニングデータがモデルの性能にどのように影響するかを示す。
論文 参考訳(メタデータ) (2020-04-16T17:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。