論文の概要: Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan
- arxiv url: http://arxiv.org/abs/2603.00923v1
- Date: Sun, 01 Mar 2026 05:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.415447
- Title: Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan
- Title(参考訳): 絶滅危惧言語文書化のためのハイブリッドニューラルLLMパイプライン : Jungar Tuvan を事例として
- Authors: Siyu Liang, Talant Mawkanuli, Gina-Anne Levow,
- Abstract要約: 本稿では,ニューラルシークエンスラベリングと大規模言語モデル(LLM)を併用したハイブリッド自動グロスパイプラインを提案する。
検索強化プロンプトは、ランダムなサンプル選択よりも大幅に向上することを示す。
また, 形態素辞書は, 辞書を全く提供していない場合に比べて, パラドックス的に性能を損なうことが判明した。
- 参考スコア(独自算出の注目度): 6.367163817135528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interlinear glossed text (IGT) creation remains a major bottleneck in linguistic documentation and fieldwork, particularly for low-resource morphologically rich languages. We present a hybrid automatic glossing pipeline that combines neural sequence labeling with large language model (LLM) post-correction, evaluated on Jungar Tuvan, a low-resource Turkic language. Through systematic ablation studies, we show that retrieval-augmented prompting provides substantial gains over random example selection. We further find that morpheme dictionaries paradoxically hurt performance compared to providing no dictionary at all in most cases, and that performance scales approximately logarithmically with the number of few-shot examples. Most significantly, our two-stage pipeline combining a BiLSTM-CRF model with LLM post-correction yields substantial gains for most models, achieving meaningful reductions in annotation workload. Drawing on these findings, we establish concrete design principles for integrating structured prediction models with LLM reasoning in morphologically complex fieldwork contexts. These principles demonstrate that hybrid architectures offer a promising direction for computationally light solutions to automatic linguistic annotation in endangered language documentation.
- Abstract(参考訳): Interlinear glossed text (IGT) の生成は、特に低リソースの形態学的にリッチな言語において、言語文書やフィールドワークにおいて大きなボトルネックとなっている。
ニューラルシークエンスラベリングと大規模言語モデル(LLM)のポストコレクションを組み合わせた,低リソースのトルコ語であるJungar Tuvanを用いたハイブリッド自動グロスパイプラインを提案する。
体系的なアブレーション研究を通じて,検索強化プロンプトがランダムなサンプル選択よりもかなりの利益をもたらすことを示す。
さらに、形態素辞書は、ほとんどの場合、辞書を全く提供しないのに比べて、パラドックス的に性能を損なうこと、そして、性能は、数ショットの例の数とほぼ対数的にスケールすることがわかった。
さらに,BiLSTM-CRFモデルとLLMポスト補正を併用した2段階パイプラインでは,ほとんどのモデルでかなりの利得が得られ,アノテーション処理負荷の有意義な削減を実現している。
これらの知見に基づいて、形態学的に複雑なフィールドワークの文脈において、構造化予測モデルとLLM推論を統合するための具体的な設計原理を確立する。
これらの原則は、ハイブリッドアーキテクチャが、絶滅危惧言語文書における自動言語アノテーションに対する計算的に軽量なソリューションに有望な方向を提供することを示している。
関連論文リスト
- Massively Multilingual Joint Segmentation and Glossing [43.1579568150712]
本研究は, 原文からの線形グルースとそれに対応する形態的セグメンテーションを共同で予測するニューラルモデルに関する最初の研究である。
我々は,Seq2seq多言語モデルの集合であるGrossLMとPolyGlossのトレーニングコーパスを拡張した。
論文 参考訳(メタデータ) (2026-01-16T00:55:35Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and
Approaches to Modeling [2.741266294612776]
非同化語彙借入に富んだスペイン語ニュースワイヤの注釈付きコーパスを導入する。
我々は,CRF,BiLSTM-CRF,Transformer-basedモデルなど,複数のシーケンスラベリングモデルがどのように動作するかを評価する。
論文 参考訳(メタデータ) (2022-03-30T09:46:51Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。