Fugu-MT 論文翻訳(概要): Modeling the Graphotactics of Low-Resource Languages Using Sequential GANs

論文の概要: Modeling the Graphotactics of Low-Resource Languages Using Sequential GANs

arxiv url: http://arxiv.org/abs/2210.14409v1
Date: Wed, 26 Oct 2022 01:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 13:10:23.594512
Title: Modeling the Graphotactics of Low-Resource Languages Using Sequential GANs
Title（参考訳）: 逐次GANを用いた低リソース言語のグラフ戦術のモデル化
Authors: Isaac Wasserman
Abstract要約: GAN(Generative Adversarial Networks)は、人工データの作成を支援する。本稿では,言語の文法をモデル化し,再現しようとするGANの実装とテストについて論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative Adversarial Networks (GANs) have been shown to aid in the creation of artificial data in situations where large amounts of real data are difficult to come by. This issue is especially salient in the computational linguistics space, where researchers are often tasked with modeling the complex morphologic and grammatical processes of low-resource languages. This paper will discuss the implementation and testing of a GAN that attempts to model and reproduce the graphotactics of a language using only 100 example strings. These artificial, yet graphotactically compliant, strings are meant to aid in modeling the morphological inflection of low-resource languages.
Abstract（参考訳）: GAN(Generative Adversarial Networks)は、大量の実データが入手困難である状況において、人工データの作成を支援することが示されている。この問題は特に計算言語学の分野において顕著であり、研究者はしばしば低リソース言語の複雑な形態学的および文法的過程のモデル化に携わる。本稿では,100個のサンプル文字列のみを用いて言語の文法をモデル化し,再現しようとするGANの実装とテストについて述べる。これらの人工的だがグラフに準拠した文字列は、低リソース言語の形態的変形をモデル化するのに役立つ。

関連論文リスト

Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan [6.367163817135528]
本稿では,ニューラルシークエンスラベリングと大規模言語モデル(LLM)を併用したハイブリッド自動グロスパイプラインを提案する。検索強化プロンプトは、ランダムなサンプル選択よりも大幅に向上することを示す。また, 形態素辞書は, 辞書を全く提供していない場合に比べて, パラドックス的に性能を損なうことが判明した。
論文参考訳（メタデータ） (2026-03-01T05:03:11Z)
Contextual morphologically-guided tokenization for Latin encoder models [2.5578258168516816]
形態学的に豊かな言語であるラテン語のトークン化について検討する。形態的に誘導されたトークン化は、下流4つのタスクにおける全体的なパフォーマンスを改善する。
論文参考訳（メタデータ） (2025-11-12T20:16:52Z)
EqualizeIR: Mitigating Linguistic Biases in Retrieval Models [14.755831733659699]
既存の情報検索(IR)モデルでは、入力クエリの言語的複雑さに基づいた大きなバイアスが示される。我々は、IRモデルの言語バイアスを軽減するためのフレームワークであるEqualizeIRを提案する。
論文参考訳（メタデータ） (2025-03-22T03:24:34Z)
Small Language Models Also Work With Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
トークン化のない,音素および音素に基づく言語モデルにより,強力な言語性能が得られることを示す。以上の結果から,より言語学的に妥当な言語モデルを作成する上で,有望な方向性が示唆された。
論文参考訳（メタデータ） (2024-10-02T12:36:08Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文参考訳（メタデータ） (2023-05-23T04:28:16Z)
On Robustness of Prompt-based Semantic Parsing with Large Pre-trained Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文参考訳（メタデータ） (2023-01-30T13:21:00Z)
On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文参考訳（メタデータ） (2021-10-15T21:41:16Z)
Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文参考訳（メタデータ） (2021-04-18T08:13:06Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Data Augmentation for Spoken Language Understanding via Pretrained Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文参考訳（メタデータ） (2020-04-29T04:07:12Z)
A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文参考訳（メタデータ） (2019-04-04T02:03:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。