論文の概要: CWoMP: Morpheme Representation Learning for Interlinear Glossing
- arxiv url: http://arxiv.org/abs/2603.18184v1
- Date: Wed, 18 Mar 2026 18:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.799502
- Title: CWoMP: Morpheme Representation Learning for Interlinear Glossing
- Title(参考訳): CWoMP: インターリニアグロースのためのモルフェム表現学習
- Authors: Morris Alper, Enora Rice, Bhargav Shandilya, Alexis Palmer, Lori Levin,
- Abstract要約: CWoMP(Contrastive Word-Morpheme Pretraining)を提案する。
我々は,CWoMPが既存の手法より優れていると同時に,より効率的であることを示す,多種多様な低リソース言語の評価を行った。
- 参考スコア(独自算出の注目度): 16.271227825969433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interlinear glossed text (IGT) is a standard notation for language documentation which is linguistically rich but laborious to produce manually. Recent automated IGT methods treat glosses as character sequences, neglecting their compositional structure. We propose CWoMP (Contrastive Word-Morpheme Pretraining), which instead treats morphemes as atomic form-meaning units with learned representations. A contrastively trained encoder aligns words-in-context with their constituent morphemes in a shared embedding space; an autoregressive decoder then generates the morpheme sequence by retrieving entries from a mutable lexicon of these embeddings. Predictions are interpretable--grounded in lexicon entries--and users can improve results at inference time by expanding the lexicon without retraining. We evaluate on diverse low-resource languages, showing that CWoMP outperforms existing methods while being significantly more efficient, with particularly strong gains in extremely low-resource settings.
- Abstract(参考訳): Interlinear glossed text (IGT)は言語ドキュメントの標準的な表記法であり、言語的に豊かだが、手作業で作るのに熱心である。
最近の自動IGT法では、グルースを文字配列として扱い、構成構造を無視している。
CWoMP(Contrastive Word-Morpheme Pretraining)を提案する。
対照的に訓練されたエンコーダは、ワード・イン・コンテクストを、共有埋め込み空間における構成形態素と整合させ、自己回帰デコーダは、これらの埋め込みの可変語彙からエントリを取得することにより、モーフィムシーケンスを生成する。
予測はレキシコンエントリに接地して解釈可能であり、ユーザーはレキシコンをリトレーニングせずに拡張することで、推論時に結果を改善することができる。
CWoMPが既存の手法より優れている一方で,非常に低リソースな設定では特に顕著に向上していることを示す。
関連論文リスト
- MoVoC: Morphology-Aware Subword Construction for Geez Script Languages [7.7761618950496265]
サブワードベースのトークン化法は、しばしば形態的境界を維持するのに失敗する。
我々はMoVoC(Morpheme-aware Subword Vocabulary Construction)とMoVoC-Tokをトレーニングする。
論文 参考訳(メタデータ) (2025-09-10T17:45:10Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Contextualized Automatic Speech Recognition with Dynamic Vocabulary [41.892863381787684]
本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
実験の結果,提案手法は英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
論文 参考訳(メタデータ) (2024-05-22T05:03:39Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Nugget: Neural Agglomerative Embeddings of Text [49.233014020133034]
入力トークンのサブセットに基づいた表現に言語をエンコードするNuggetというソリューションを提案する。
これらのナゲットは、自動エンコーディングや機械翻訳といったタスクを通じて学習され、直感的に言語を意味のある単位に分割する。
論文 参考訳(メタデータ) (2023-10-03T01:47:49Z) - More Romanian word embeddings from the RETEROM project [0.0]
単語埋め込み」は、単語のベクトル表現を自動的に学習する。
使用可能な単語埋め込みセットをオープンアクセス可能な大規模ライブラリを開発する計画である。
論文 参考訳(メタデータ) (2021-11-21T06:05:12Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。