論文の概要: GlossAssist -- A Tool to Simplify Corpus Creation and Study the Effect of NLP Models in Low-Resource Documentation Settings
- arxiv url: http://arxiv.org/abs/2606.04367v1
- Date: Wed, 03 Jun 2026 02:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.483995
- Title: GlossAssist -- A Tool to Simplify Corpus Creation and Study the Effect of NLP Models in Low-Resource Documentation Settings
- Title(参考訳): GlossAssist - コーパス作成の簡易化と低リソースドキュメンテーション設定におけるNLPモデルの効果に関する研究
- Authors: Bhargav Shandilya, Matt Buchholz, Alexis Palmer,
- Abstract要約: 本稿では,CWoMPの検索に基づくアーキテクチャを中心に構築されたグロスツールであるGrossAssistを紹介する。
本システムでは,アノテータによる各補正をアクティブな学習環境の一部として扱い,レキシコンを拡張し,モデルの再トレーニングを必要とせずに将来の予測を改善する。
- 参考スコア(独自算出の注目度): 10.11584948505218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interlinear glossed text (IGT) is the standard format for linguistic annotation in language documentation. Producing it manually, however, is often slow and costly. Automated glossing systems have improved substantially in recent years, but adoption among field linguists remains limited. Existing tools are designed to be evaluated rather than used, offering no interpretable path for correction or the incorporation of linguistic expertise back into model behavior. We present GlossAssist, a glossing tool built around the retrieval-based architecture of CWoMP (Contrastive Word-Morpheme Pre-training), which grounds predictions in a mutable lexicon of learned morpheme representations. In conjunction with CWoMP, our system treats each correction by an annotator as part of an active learning setting, which expands the lexicon and improves future predictions without having to retrain the model. In this paper, we present our interface and argue that this feedback loop should be treated as a design requirement for NLP tools aimed at documentary linguists.
- Abstract(参考訳): Interlinear glossed text (IGT) は言語文書における言語アノテーションの標準フォーマットである。
しかし、手作業で作るのは遅くてコストがかかることが多い。
近年、自動用語体系は大幅に改善されているが、フィールド言語学者の間での採用は限られている。
既存のツールは使用ではなく評価されるように設計されており、修正のための解釈可能なパスや、モデル行動への言語的専門知識の組み入れは提供されない。
本稿では,CWoMP(Contrastive Word-Morpheme Pre-training)の検索に基づくアーキテクチャに基づいて構築されたグロスアシストについて述べる。
CWoMPと組み合わせて、アノテータによる各補正をアクティブな学習環境の一部として扱い、レキシコンを拡張し、モデルを再訓練することなく将来の予測を改善する。
本稿では, このフィードバックループを, 文書言語学者を対象としたNLPツールの設計要件として扱うべきである,と論じる。
関連論文リスト
- CWoMP: Morpheme Representation Learning for Interlinear Glossing [16.271227825969433]
CWoMP(Contrastive Word-Morpheme Pretraining)を提案する。
我々は,CWoMPが既存の手法より優れていると同時に,より効率的であることを示す,多種多様な低リソース言語の評価を行った。
論文 参考訳(メタデータ) (2026-03-18T18:29:18Z) - Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan [6.367163817135528]
本稿では,ニューラルシークエンスラベリングと大規模言語モデル(LLM)を併用したハイブリッド自動グロスパイプラインを提案する。
検索強化プロンプトは、ランダムなサンプル選択よりも大幅に向上することを示す。
また, 形態素辞書は, 辞書を全く提供していない場合に比べて, パラドックス的に性能を損なうことが判明した。
論文 参考訳(メタデータ) (2026-03-01T05:03:11Z) - Gloss-Free Sign Language Translation: An Unbiased Evaluation of Progress in the Field [18.404620610035174]
手話翻訳は、視覚的な手話ビデオを自動的に音声言語テキストに変換することを目的としている。
近年は急速に進歩しているが、性能改善の真の源泉はよく不明である。
本稿では,最近のGloss-free SLTモデルについて,統一フレームワークにおける重要なコントリビューションを再実装した総合的研究を行う。
論文 参考訳(メタデータ) (2026-02-18T08:40:31Z) - Scaffolded Language Models with Language Supervision for Mixed-Autonomy: A Survey [52.00674453604779]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。