論文の概要: Massively Multilingual Joint Segmentation and Glossing
- arxiv url: http://arxiv.org/abs/2601.10925v2
- Date: Thu, 22 Jan 2026 21:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.270419
- Title: Massively Multilingual Joint Segmentation and Glossing
- Title(参考訳): 声帯と声帯の多言語化
- Authors: Michael Ginn, Lindia Tjuatja, Enora Rice, Ali Marashian, Maria Valentini, Jasmine Xu, Graham Neubig, Alexis Palmer,
- Abstract要約: 本研究は, 原文からの線形グルースとそれに対応する形態的セグメンテーションを共同で予測するニューラルモデルに関する最初の研究である。
我々は,Seq2seq多言語モデルの集合であるGrossLMとPolyGlossのトレーニングコーパスを拡張した。
- 参考スコア(独自算出の注目度): 43.1579568150712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated interlinear gloss prediction with neural networks is a promising approach to accelerate language documentation efforts. However, while state-of-the-art models like GlossLM achieve high scores on glossing benchmarks, user studies with linguists have found critical barriers to the usefulness of such models in real-world scenarios. In particular, existing models typically generate morpheme-level glosses but assign them to whole words without predicting the actual morpheme boundaries, making the predictions less interpretable and thus untrustworthy to human annotators. We conduct the first study on neural models that jointly predict interlinear glosses and the corresponding morphological segmentation from raw text. We run experiments to determine the optimal way to train models that balance segmentation and glossing accuracy, as well as the alignment between the two tasks. We extend the training corpus of GlossLM and pretrain PolyGloss, a family of seq2seq multilingual models for joint segmentation and glossing that outperforms GlossLM on glossing and beats various open-source LLMs on segmentation, glossing, and alignment. In addition, we demonstrate that PolyGloss can be quickly adapted to a new dataset via low-rank adaptation.
- Abstract(参考訳): ニューラルネットワークによる線形間光沢の自動予測は、言語ドキュメントの取り組みを加速するための有望なアプローチである。
しかしながら、GrossLMのような最先端のモデルは、グロスベンチマークで高いスコアを得る一方で、言語学者とのユーザスタディは、現実のシナリオにおけるそのようなモデルの有用性に重要な障壁を見出している。
特に、既存のモデルは、通常、モーフィムレベルのグルースを生成するが、実際のモーフィム境界を予測せずに単語全体を割り当てるので、予測は解釈しにくく、人間のアノテータには信頼できない。
本研究は, 原文からの線形グルースとそれに対応する形態的セグメンテーションを共同で予測するニューラルモデルに関する最初の研究である。
セグメンテーションと光沢の精度のバランスをとるモデルをトレーニングする最適な方法と、2つのタスク間のアライメントを決定するために実験を実行する。
我々はGrossLMのトレーニングコーパスを拡張し、Seq2seq多言語モデルのファミリーであるPolyGlossとGrossLMをグロスで上回り、セグメンテーション、グロス、アライメントで様々なオープンソースLLMを上回ります。
さらに,PolyGlossが低ランク適応によって新しいデータセットに迅速に適応できることを実証した。
関連論文リスト
- Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan [6.367163817135528]
本稿では,ニューラルシークエンスラベリングと大規模言語モデル(LLM)を併用したハイブリッド自動グロスパイプラインを提案する。
検索強化プロンプトは、ランダムなサンプル選択よりも大幅に向上することを示す。
また, 形態素辞書は, 辞書を全く提供していない場合に比べて, パラドックス的に性能を損なうことが判明した。
論文 参考訳(メタデータ) (2026-03-01T05:03:11Z) - MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification [16.895269678640595]
コンピュータ病理学において、スライド画像の分類は、主に専門家ラベル付きスライドの極端な不足によって行われる。
最近の視覚言語法では、大きな言語モデルによって生成されるテキスト意味論が取り入れられているが、これらの記述を静的なクラスレベルの先行概念として扱い、全てのサンプル間で共有され、サンプルの精査が欠如している。
MUlti-view Semantic Enhancement (MUSE) は、まず、サンプルワイド適応により意味的精度を洗練し、次いで、検索強化マルチビュー生成により意味的豊かさを向上するフレームワークである。
論文 参考訳(メタデータ) (2026-02-24T13:17:35Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Learning Beyond Limits: Multitask Learning and Synthetic Data for Low-Resource Canonical Morpheme Segmentation [7.766518675734386]
低リソースのトレーニング信号を増強する変圧器を用いた形態素セグメンテーションシステムを提案する。
本フレームワークは, 形態的セグメントとグルースを図形入力から共同で予測する。
我々は,大規模言語モデル(LLM)によって生成された合成学習データを,文脈内学習を用いて統合する。
論文 参考訳(メタデータ) (2025-05-22T15:40:09Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。