論文の概要: Massively Multilingual Joint Segmentation and Glossing
- arxiv url: http://arxiv.org/abs/2601.10925v1
- Date: Fri, 16 Jan 2026 00:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.321416
- Title: Massively Multilingual Joint Segmentation and Glossing
- Title(参考訳): 声帯と声帯の多言語化
- Authors: Michael Ginn, Lindia Tjuatja, Enora Rice, Ali Marashian, Maria Valentini, Jasmine Xu, Graham Neubig, Alexis Palmer,
- Abstract要約: 本研究は, 原文からの線形グルースとそれに対応する形態的セグメンテーションを共同で予測するニューラルモデルに関する最初の研究である。
我々は,Seq2seq多言語モデルの集合であるGrossLMとPolyGlossのトレーニングコーパスを拡張した。
- 参考スコア(独自算出の注目度): 43.1579568150712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated interlinear gloss prediction with neural networks is a promising approach to accelerate language documentation efforts. However, while state-of-the-art models like GlossLM achieve high scores on glossing benchmarks, user studies with linguists have found critical barriers to the usefulness of such models in real-world scenarios. In particular, existing models typically generate morpheme-level glosses but assign them to whole words without predicting the actual morpheme boundaries, making the predictions less interpretable and thus untrustworthy to human annotators. We conduct the first study on neural models that jointly predict interlinear glosses and the corresponding morphological segmentation from raw text. We run experiments to determine the optimal way to train models that balance segmentation and glossing accuracy, as well as the alignment between the two tasks. We extend the training corpus of GlossLM and pretrain PolyGloss, a family of seq2seq multilingual models for joint segmentation and glossing that outperforms GlossLM on glossing and beats various open-source LLMs on segmentation, glossing, and alignment. In addition, we demonstrate that PolyGloss can be quickly adapted to a new dataset via low-rank adaptation.
- Abstract(参考訳): ニューラルネットワークによる線形間光沢の自動予測は、言語ドキュメントの取り組みを加速するための有望なアプローチである。
しかしながら、GrossLMのような最先端のモデルは、グロスベンチマークで高いスコアを得る一方で、言語学者とのユーザスタディは、現実のシナリオにおけるそのようなモデルの有用性に重要な障壁を見出している。
特に、既存のモデルは、通常、モーフィムレベルのグルースを生成するが、実際のモーフィム境界を予測せずに単語全体を割り当てるので、予測は解釈しにくく、人間のアノテータには信頼できない。
本研究は, 原文からの線形グルースとそれに対応する形態的セグメンテーションを共同で予測するニューラルモデルに関する最初の研究である。
セグメンテーションと光沢の精度のバランスをとるモデルをトレーニングする最適な方法と、2つのタスク間のアライメントを決定するために実験を実行する。
我々はGrossLMのトレーニングコーパスを拡張し、Seq2seq多言語モデルのファミリーであるPolyGlossとGrossLMをグロスで上回り、セグメンテーション、グロス、アライメントで様々なオープンソースLLMを上回ります。
さらに,PolyGlossが低ランク適応によって新しいデータセットに迅速に適応できることを実証した。
関連論文リスト
- Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Learning Beyond Limits: Multitask Learning and Synthetic Data for Low-Resource Canonical Morpheme Segmentation [7.766518675734386]
低リソースのトレーニング信号を増強する変圧器を用いた形態素セグメンテーションシステムを提案する。
本フレームワークは, 形態的セグメントとグルースを図形入力から共同で予測する。
我々は,大規模言語モデル(LLM)によって生成された合成学習データを,文脈内学習を用いて統合する。
論文 参考訳(メタデータ) (2025-05-22T15:40:09Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。