論文の概要: Speech Analysis of Language Varieties in Italy
- arxiv url: http://arxiv.org/abs/2406.15862v1
- Date: Sat, 22 Jun 2024 14:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:15:22.598176
- Title: Speech Analysis of Language Varieties in Italy
- Title(参考訳): イタリアにおける言語品種の音声分析
- Authors: Moreno La Quatra, Alkis Koudounas, Elena Baralis, Sabato Marco Siniscalchi,
- Abstract要約: 本研究は,イタリアの多様な言語品種から抽出された音声サンプルの地理的領域を自動的に同定することに焦点を当てる。
我々はまた、これらの多様だが密接に関連する品種間の関係に関する新たな洞察を明らかにすることを模索している。
- 参考スコア(独自算出の注目度): 18.464078978885812
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Italy exhibits rich linguistic diversity across its territory due to the distinct regional languages spoken in different areas. Recent advances in self-supervised learning provide new opportunities to analyze Italy's linguistic varieties using speech data alone. This includes the potential to leverage representations learned from large amounts of data to better examine nuances between closely related linguistic varieties. In this study, we focus on automatically identifying the geographic region of origin of speech samples drawn from Italy's diverse language varieties. We leverage self-supervised learning models to tackle this task and analyze differences and similarities between Italy's regional languages. In doing so, we also seek to uncover new insights into the relationships among these diverse yet closely related varieties, which may help linguists understand their interconnected evolution and regional development over time and space. To improve the discriminative ability of learned representations, we evaluate several supervised contrastive learning objectives, both as pre-training steps and additional fine-tuning objectives. Experimental evidence shows that pre-trained self-supervised models can effectively identify regions from speech recording. Additionally, incorporating contrastive objectives during fine-tuning improves classification accuracy and yields embeddings that distinctly separate regional varieties, demonstrating the value of combining self-supervised pre-training and contrastive learning for this task.
- Abstract(参考訳): イタリアは、異なる地域で話される異なる地域言語のために、その領域に豊富な言語多様性を示す。
近年の自己教師型学習の進歩は、音声データのみを用いてイタリアの言語品種を分析する新たな機会を提供する。
これには、大量のデータから学んだ表現を活用して、密接に関連する言語品種間のニュアンスをよりよく調べる能力が含まれる。
本研究では,イタリアの多様な言語品種から抽出された音声サンプルの発声領域の自動同定に焦点をあてる。
我々は,この課題に対処するための自己教師付き学習モデルを活用し,イタリアの地域言語の違いと類似点を分析する。
また,これらの多様で近縁な品種間の関係に関する新たな知見を探索し,言語学者が時間的・空間的に相互に相互に関係する進化と地域発展を理解するのに役立つかもしれない。
学習表現の識別能力を向上させるため,教師付きコントラスト学習目標を事前学習ステップと追加の微調整目的として評価した。
実験的な証拠は、事前訓練された自己教師付きモデルが音声記録から領域を効果的に識別できることを示している。
さらに、微調整中に対照的な目的を取り入れることで、分類精度が向上し、個別に地域品種を分離する埋め込みが得られ、この課題に対して自己教師付き事前学習と対照的な学習を組み合わせる価値が示される。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Phylogeny-Inspired Adaptation of Multilingual Models to New Languages [43.62238334380897]
我々は、言語系統情報を用いて、密接に関連する言語を活用する言語間移動を改善する方法を示す。
我々は,多言語(ゲルマン語,ウルリック語,トゥピ語,ウト・アステカン語)の言語をアダプタベースで学習し,構文的・意味的タスクの評価を行う。
論文 参考訳(メタデータ) (2022-05-19T15:49:19Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Identifying Distributional Perspective Differences from Colingual Groups [41.58939666949895]
特定の価値観や出来事に対する視点に関する異なるグループ間での相互理解の欠如は、インフォームドな決定や偏見のない意見につながる可能性がある。
本研究では,コリンガル群を研究対象とし,言語コーパスをプロキシとして用いて分布的視点を同定する。
本稿では,共通理解を学習するための新しい計算手法を提案し,その手法を英語,中国語,日本語の文化的認識モデルの構築によって評価する。
論文 参考訳(メタデータ) (2020-04-10T08:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。