論文の概要: Variation and Instability in Dialect-Based Embedding Spaces
- arxiv url: http://arxiv.org/abs/2303.14963v1
- Date: Mon, 27 Mar 2023 07:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:37:33.824847
- Title: Variation and Instability in Dialect-Based Embedding Spaces
- Title(参考訳): 方言に基づく埋め込み空間のばらつきと不安定性
- Authors: Jonathan Dunn
- Abstract要約: 本論文は、英語の異なる地域品種で訓練された埋め込み空間の変動を測定する。
実験により、埋め込み空間はトレーニングデータに表される方言に大きく影響されることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper measures variation in embedding spaces which have been trained on
different regional varieties of English while controlling for instability in
the embeddings. While previous work has shown that it is possible to
distinguish between similar varieties of a language, this paper experiments
with two follow-up questions: First, does the variety represented in the
training data systematically influence the resulting embedding space after
training? This paper shows that differences in embeddings across varieties are
significantly higher than baseline instability. Second, is such dialect-based
variation spread equally throughout the lexicon? This paper shows that specific
parts of the lexicon are particularly subject to variation. Taken together,
these experiments confirm that embedding spaces are significantly influenced by
the dialect represented in the training data. This finding implies that there
is semantic variation across dialects, in addition to previously-studied
lexical and syntactic variation.
- Abstract(参考訳): 本論文は, 組込みの不安定性を抑えつつ, 英語の異なる地域品種で訓練された埋め込み空間の変動を測定する。
以前の研究では、類似した言語の品種を区別することは可能であることを示したが、この論文は2つのフォローアップ質問で実験した: まず、トレーニングデータに表される品種はトレーニング後の埋め込み空間に体系的に影響を及ぼすか?
本稿では,品種間の埋め込みの差異がベースライン不安定性よりも著しく高いことを示す。
第二に、このような方言に基づく変化は辞書全体に等しく広がるのか?
本稿では,レキシコンの特定の部分が特に変動していることを示す。
これらの実験により, 埋め込み空間は学習データに表される方言に大きく影響されることが確認された。
この発見は、前述した語彙的および構文的変化に加えて、方言にまたがる意味的変化が存在することを示している。
関連論文リスト
- Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum [25.732397636695882]
イタリア語方言における音声とテキストのパフォーマンスを測定し,地理的な特徴の相違を実証的に観察する。
この格差は(-0.5)言語的に最もパフォーマンスの高い方言とほぼ類似している。
さらに, 地学的手法を用いて, 見えない場所でのゼロショット性能を予測し, 地理的情報の導入により予測性能を大幅に向上する。
論文 参考訳(メタデータ) (2024-10-18T16:39:42Z) - Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus [0.0]
19世紀のアメリカの文学的変種トークンのデータセットを,人間の注釈付き方言群タグの新たな層で提示する。
意図的な正書法変化によって生じる「方言効果」が複数の言語チャネルを取り入れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:58:21Z) - The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Stability of Syntactic Dialect Classification Over Space and Time [0.0]
本稿では,12の方言を対象に,月々の間隔で3年間にまたがる英語の12の方言を対象に,1120都市にまたがる空間分布を定式化するテストセットを構築した。
各方言の分類性能の劣化率は時間とともに減少し,統語的変化を受ける地域を特定することができる。
また、方言領域における分類精度の分布により、方言の文法が内部的に不均一である程度を特定できる。
論文 参考訳(メタデータ) (2022-09-11T23:14:59Z) - Contextualized language models for semantic change detection: lessons
learned [4.436724861363513]
本稿では,ダイアクロニック・セマンティック・チェンジを検出する文脈的埋め込みに基づく手法の出力の質的分析を行う。
本研究の結果から,文脈化手法は,実際のダイアクロニック・セマンティック・シフトを行なわない単語に対して,高い変化スコアを予測できることが示唆された。
我々の結論は、事前学習された文脈化言語モデルは、語彙感覚の変化と文脈分散の変化を補う傾向にあるということである。
論文 参考訳(メタデータ) (2022-08-31T23:35:24Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - A Matter of Framing: The Impact of Linguistic Formalism on Probing
Results [69.36678873492373]
BERT (Delvin et al.) のような事前訓練されたコンテキスト化エンコーダは、下流タスクで顕著なパフォーマンスを示す。
調査における最近の研究は、事前学習中にこれらのモデルによって暗黙的に学習された言語知識について調査している。
形式主義の選択は調査結果に影響を及ぼすか?
BERTによる意味的役割情報とプロトロール情報のエンコーディングにおける言語学的意義の相違は,形式主義に依存している。
論文 参考訳(メタデータ) (2020-04-30T17:45:16Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。