論文の概要: Can we teach language models to gloss endangered languages?
- arxiv url: http://arxiv.org/abs/2406.18895v3
- Date: Thu, 03 Oct 2024 22:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 18:20:06.596755
- Title: Can we teach language models to gloss endangered languages?
- Title(参考訳): 絶滅危惧言語を教えるために、言語モデルを教えることはできますか?
- Authors: Michael Ginn, Mans Hulden, Alexis Palmer,
- Abstract要約: Interlinear glossed text (IGT) は言語ドキュメントプロジェクトにおいて一般的なフォーマットであり、各形態素には記述的なアノテーションが付けられている。
我々は,大規模言語モデル (LLM) が,従来の訓練を使わずに,文脈内学習と相互学習の課題に有効であるかどうかを考察する。
LLMベースの手法は、トレーニングを全く必要とせず、標準的なトランスフォーマーベースラインを上回ります。
- 参考スコア(独自算出の注目度): 10.698704803396723
- License:
- Abstract: Interlinear glossed text (IGT) is a popular format in language documentation projects, where each morpheme is labeled with a descriptive annotation. Automating the creation of interlinear glossed text would be desirable to reduce annotator effort and maintain consistency across annotated corpora. Prior research has explored a number of statistical and neural methods for automatically producing IGT. As large language models (LLMs) have showed promising results across multilingual tasks, even for rare, endangered languages, it is natural to wonder whether they can be utilized for the task of generating IGT. We explore whether LLMs can be effective at the task of interlinear glossing with in-context learning, without any traditional training. We propose new approaches for selecting examples to provide in-context, observing that targeted selection can significantly improve performance. We find that LLM-based methods beat standard transformer baselines, despite requiring no training at all. These approaches still underperform state-of-the-art supervised systems for the task, but are highly practical for researchers outside of the NLP community, requiring minimal effort to use.
- Abstract(参考訳): Interlinear glossed text (IGT) は言語ドキュメントプロジェクトにおいて一般的なフォーマットであり、各形態素には記述的なアノテーションが付けられている。
インターリニアグラフテキストの作成を自動化することは、アノテータの労力を減らし、アノテータ付きコーパス間の一貫性を維持するのが望ましい。
これまでの研究では、IGTを自動生成するための統計学的および神経学的手法がいくつか検討されてきた。
大規模言語モデル (LLM) は多言語タスクにまたがって有望な結果を示しており、希少な絶滅危惧言語でもIGTを生成するタスクに利用できるかどうか疑問視することは当然である。
従来の訓練を使わずに,LLMがテキスト内学習と相互学習の課題に有効であるかどうかを考察する。
そこで,本研究では,対象選択が性能を著しく向上することを示す,実例選択のための新しい手法を提案する。
LLMベースの手法は、トレーニングを全く必要とせず、標準的なトランスフォーマーベースラインを上回ります。
これらのアプローチは依然としてタスクの最先端の教師システムでは不十分だが、NLPコミュニティ以外の研究者にとっては非常に実用的であり、使用に最小限の労力を要する。
関連論文リスト
- GlossLM: Multilingual Pretraining for Low-Resource Interlinear Glossing [39.846419973203744]
我々は、1.8k言語にまたがる450万以上のサンプルを網羅し、様々なソースからIGT(Interlinear glossed Text)データをコンパイルする。
コーパス上で大きな多言語モデルを事前学習し、最大6.6%のSOTAモデルより優れています。
トレーニング済みのモデルとデータセットをHugging Faceを通じて利用可能にするとともに、言語ドキュメントの作業で使用するWebインターフェースを通じてアクセスします。
論文 参考訳(メタデータ) (2024-03-11T03:21:15Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for
Underdocumented Languages [6.8708103492634836]
何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。
ターゲット言語の専門知識が利用可能であれば、IGTデータをうまく活用できると仮定する。
本研究は,Tsimchianic Language Gitksanのための形態的再帰システムの構築に関する事例研究を通じて,各ステップについて解説する。
論文 参考訳(メタデータ) (2022-03-17T22:02:25Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。