論文の概要: Colexifications for Bootstrapping Cross-lingual Datasets: The Case of
Phonology, Concreteness, and Affectiveness
- arxiv url: http://arxiv.org/abs/2306.02646v1
- Date: Mon, 5 Jun 2023 07:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:30:31.181521
- Title: Colexifications for Bootstrapping Cross-lingual Datasets: The Case of
Phonology, Concreteness, and Affectiveness
- Title(参考訳): 言語間データセットのブートストラップ化のためのコレキシフィケーション--音韻論, 具体性, 影響の事例から
- Authors: Yiyi Chen, Johannes Bjerva
- Abstract要約: コレキシフィケーション(英: Colexification)とは、複数の意味を伝えるために単一の語彙形式を用いる言語現象である。
世界中の21の言語ファミリーで142の言語を対象とするデータセットを作成したキュレーション手順を紹介した。
データセットには、音素と音韻の特徴でマッピングされた、具体性と感情の格付けが含まれている。
- 参考スコア(独自算出の注目度): 6.790979602996742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Colexification refers to the linguistic phenomenon where a single lexical
form is used to convey multiple meanings. By studying cross-lingual
colexifications, researchers have gained valuable insights into fields such as
psycholinguistics and cognitive sciences [Jackson et al.,2019]. While several
multilingual colexification datasets exist, there is untapped potential in
using this information to bootstrap datasets across such semantic features. In
this paper, we aim to demonstrate how colexifications can be leveraged to
create such cross-lingual datasets. We showcase curation procedures which
result in a dataset covering 142 languages across 21 language families across
the world. The dataset includes ratings of concreteness and affectiveness,
mapped with phonemes and phonological features. We further analyze the dataset
along different dimensions to demonstrate potential of the proposed procedures
in facilitating further interdisciplinary research in psychology, cognitive
science, and multilingual natural language processing (NLP). Based on initial
investigations, we observe that i) colexifications that are closer in
concreteness/affectiveness are more likely to colexify; ii) certain
initial/last phonemes are significantly correlated with
concreteness/affectiveness intra language families, such as /k/ as the initial
phoneme in both Turkic and Tai-Kadai correlated with concreteness, and /p/ in
Dravidian and Sino-Tibetan correlated with Valence; iii) the type-to-token
ratio (TTR) of phonemes are positively correlated with concreteness across
several language families, while the length of phoneme segments are negatively
correlated with concreteness; iv) certain phonological features are negatively
correlated with concreteness across languages. The dataset is made public
online for further research.
- Abstract(参考訳): コレキシフィケーション(英: Colexification)とは、複数の意味を伝えるために単一の語彙形式を用いる言語現象である。
言語間コレクサフィケーションを研究することによって、研究者は精神言語学や認知科学(jackson et al., 2019])といった分野に貴重な洞察を得た。
複数の多言語共語彙データセットが存在するが、そのような意味的特徴にまたがってデータセットをブートストラップするためにこの情報を使用する可能性は未解決である。
本稿では,このような言語間データセットを作成するためにコレキシフィケーションをどのように活用できるかを示す。
世界中の21の言語ファミリーにまたがる142の言語をカバーするデータセットのキュレーション手順を紹介する。
データセットには、音素と音韻的特徴でマッピングされた、具体性と情緒性の格付けが含まれている。
さらに,提案手法の可能性を実証するために,異なる次元に沿ってデータセットを解析し,心理学,認知科学,多言語自然言語処理(nlp)の分野間研究を促進する。
初期の調査から ご覧の通り
一 具体性又は効力性に近づいた混同は、より混同し易いもの
二 特定の初期/最後の音素は、トゥルク語及びタイカダイ語における初期音素である/k/や、ドラビダ語及びシナ・チベット語における/p/が価数と相関するなど、言語内における具体性及び影響性に有意な相関がある。
三 音素のタイプ・ツー・ケン比(TTR)は、複数の語族にまたがる具体性と正の相関を持ち、音素の分節の長さは、具体性と負の相関がある。
iv)特定の音韻的特徴は、言語間の具体性と負の相関がある。
データセットは、さらなる研究のためにオンラインで公開されている。
関連論文リスト
- Event Extraction in Basque: Typologically motivated Cross-Lingual Transfer-Learning Analysis [18.25948580496853]
低リソース言語におけるイベント抽出では,言語間移動学習が広く用いられている。
本稿では,ソース言語とターゲット言語との類型的類似性が,言語間移動の性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-09T15:35:41Z) - Exploring language relations through syntactic distances and geographic proximity [0.4369550829556578]
ユニバーサル依存データセットから抽出した音声の一連の部分(POS)を用いて言語間距離を探索する。
特定の形態的類型によって説明される例外を除いて、よく知られた言語族やグループに対応する定型クラスタが見つかる。
論文 参考訳(メタデータ) (2024-03-27T10:36:17Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。