論文の概要: Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in
Low-Resource English Varieties
- arxiv url: http://arxiv.org/abs/2209.07611v1
- Date: Thu, 15 Sep 2022 21:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 11:38:44.347879
- Title: Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in
Low-Resource English Varieties
- Title(参考訳): コーパスガイドによる低資源英語品種のモルフォシンタクティック特徴検出用コントラストセット
- Authors: Tessa Masis, Anissa Neal, Lisa Green, Brendan O'Connor
- Abstract要約: コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。
我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
- 参考スコア(独自算出の注目度): 3.3536302616846734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The study of language variation examines how language varies between and
within different groups of speakers, shedding light on how we use language to
construct identities and how social contexts affect language use. A common
method is to identify instances of a certain linguistic feature - say, the zero
copula construction - in a corpus, and analyze the feature's distribution
across speakers, topics, and other variables, to either gain a qualitative
understanding of the feature's function or systematically measure variation. In
this paper, we explore the challenging task of automatic morphosyntactic
feature detection in low-resource English varieties. We present a
human-in-the-loop approach to generate and filter effective contrast sets via
corpus-guided edits. We show that our approach improves feature detection for
both Indian English and African American English, demonstrate how it can assist
linguistic research, and release our fine-tuned models for use by other
researchers.
- Abstract(参考訳): 言語変化の研究は、言語が話者の異なるグループ間でどのように変化するかを調べ、言語を用いてアイデンティティを構築する方法と、社会的文脈が言語の使用に与える影響について光を当てる。
一般的な方法は、コーパス内で特定の言語的特徴(例えばゼロコプラ構成)のインスタンスを識別し、話者、話題、その他の変数間の特徴の分布を分析し、特徴の機能の定性的理解を得るか、あるいは体系的に変化を測定することである。
本稿では,低リソース英語における自動形態素特徴検出の課題について検討する。
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。
本手法は,インド英語とアフリカ英語の両方の機能検出を改善し,言語研究を支援する方法を示し,他の研究者が使用する微調整モデルをリリースする。
関連論文リスト
- Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Assessing the Role of Lexical Semantics in Cross-lingual Transfer through Controlled Manipulations [15.194196775504613]
我々は、英語と対象言語の違いが、英語の事前訓練された表現空間と言語を整合させる能力にどのように影響するかを分析する。
文字や単語の順序などの特性はアライメント品質に限られた影響しか与えないが、翻訳エントロピーの尺度を用いて定義する2言語間の語彙マッチングの程度は、それに大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-08-14T14:59:20Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Controlling Extra-Textual Attributes about Dialogue Participants: A Case
Study of English-to-Polish Neural Machine Translation [4.348327991071386]
機械翻訳モデルは、英語からポーランド語に翻訳する際に、テキストコンテキストの特定の解釈を選択する必要がある。
本稿では,翻訳における属性の制御に幅広いアプローチを採用するケーススタディを提案する。
最高のモデルでは+5.81 chrF++/+6.03 BLEUが向上し、他のモデルでは競争性能が向上した。
論文 参考訳(メタデータ) (2022-05-10T08:45:39Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。