論文の概要: Evaluating Large Language Models along Dimensions of Language Variation: A Systematik Invesdigatiom uv Cross-lingual Generalization
- arxiv url: http://arxiv.org/abs/2406.13718v1
- Date: Wed, 19 Jun 2024 17:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:45:06.718939
- Title: Evaluating Large Language Models along Dimensions of Language Variation: A Systematik Invesdigatiom uv Cross-lingual Generalization
- Title(参考訳): 言語変化の次元に沿った大規模言語モデルの評価:言語間一般化の体系化
- Authors: Niyati Bafna, Kenton Murray, David Yarowsky,
- Abstract要約: 大規模言語モデルは、見知らぬ近縁言語(CRL)や方言(HRLN)に対する性能劣化(PD)に悩まされる。
我々は,音韻,形態,語彙距離をベイズ雑音過程としてモデル化し,HRLNから制御的に離れた人工言語を合成する。
実際のCRL-HRLNペアデータからパラメータ後部を計算し、それらが人工言語の計算された傾向に従うことを示す。
- 参考スコア(独自算出の注目度): 6.888722574464927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models exhibit certain cross-lingual generalization capabilities, they suffer from performance degradation (PD) on unseen closely-related languages (CRLs) and dialects relative to their high-resource language neighbour (HRLN). However, we currently lack a fundamental understanding of what kinds of linguistic distances contribute to PD, and to what extent. Furthermore, studies of cross-lingual generalization are confounded by unknown quantities of CRL language traces in the training data, and by the frequent lack of availability of evaluation data in lower-resource related languages and dialects. To address these issues, we model phonological, morphological, and lexical distance as Bayesian noise processes to synthesize artificial languages that are controllably distant from the HRLN. We analyse PD as a function of underlying noise parameters, offering insights on model robustness to isolated and composed linguistic phenomena, and the impact of task and HRL characteristics on PD. We calculate parameter posteriors on real CRL-HRLN pair data and show that they follow computed trends of artificial languages, demonstrating the viability of our noisers. Our framework offers a cheap solution to estimating task performance on an unseen CRL given HRLN performance using its posteriors, as well as for diagnosing observed PD on a CRL in terms of its linguistic distances from its HRLN, and opens doors to principled methods of mitigating performance degradation.
- Abstract(参考訳): 大規模言語モデルは特定の言語間一般化能力を示すが、その性能劣化(PD)は、近縁言語(CRL)や方言(HRLN)に悩まされる。
しかし,現在PDにどのような言語的距離が寄与するか,その程度について,根本的な理解が得られていない。
さらに、言語間一般化の研究は、訓練データ中の未知量のCRL言語トレースと、低リソース関連言語や方言における評価データの可用性の欠如により、構築される。
これらの問題に対処するために、音韻、形態、語彙距離をベイズノイズプロセスとしてモデル化し、HRLNから制御的に離れた人工言語を合成する。
我々は、PDを基礎となる雑音パラメータの関数として分析し、孤立して構成された言語現象に対するモデルロバスト性、およびタスクおよびHRL特性がPDに与える影響について考察した。
実CRL-HRLNペアデータからパラメータ後部を計算し,それらが人工言語の計算された傾向に従うことを示す。
本フレームワークは, HRLN から言語的距離の点で CRL 上で観測された PD を診断し, 性能劣化を緩和する原理的手法への扉を開くことを目的として, HRLN のタスク性能を推定するための安価なソリューションを提供する。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - GPT-D: Inducing Dementia-related Linguistic Anomalies by Deliberate
Degradation of Artificial Neural Language Models [7.8430387435520625]
一般英語テキストで事前学習したTransformer DLモデル(GPT-2)を,人工劣化版(GPT-D)と組み合わせて提案する手法を提案する。
この手法は、広く使われている「Cookie Theft」画像記述タスクから得られたテキストデータに対する最先端のパフォーマンスにアプローチする。
本研究は, 生成型ニューラル言語モデルの内部動作, 生成する言語, 認知症が人間の発話や言語特性に与える影響について, より深く理解するためのステップである。
論文 参考訳(メタデータ) (2022-03-25T00:25:42Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Syntax Role for Neural Semantic Role Labeling [77.5166510071142]
意味的役割ラベリング(SRL)は、文の意味的述語・代名詞構造を認識することを目的としている。
従来のモデルでは、構文情報はSRLのパフォーマンスに顕著な貢献をする可能性がある。
最近の神経SRL研究は、構文情報は神経意味的役割のラベル付けにおいてはるかに重要でないことを示している。
論文 参考訳(メタデータ) (2020-09-12T07:01:12Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。