論文の概要: Trimming Phonetic Alignments Improves the Inference of Sound
Correspondence Patterns from Multilingual Wordlists
- arxiv url: http://arxiv.org/abs/2303.17932v1
- Date: Fri, 31 Mar 2023 09:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:31:34.619517
- Title: Trimming Phonetic Alignments Improves the Inference of Sound
Correspondence Patterns from Multilingual Wordlists
- Title(参考訳): 音韻アライメントのトリミングによる多言語単語からの音声対応パターンの推測
- Authors: Frederic Blum and Johann-Mattis List
- Abstract要約: 音素的に整列したコグネート集合からの対応パターンの自動推定法が提案されている。
アノテーションは退屈で時間を要するため、コーグネートデータを自動的に改善する方法を見つけることが望ましい。
本稿では、対応パターンの推測に先立って、比較言語学における音韻アライメントをトリムするワークフローを提案する。
- 参考スコア(独自算出の注目度): 3.096615629099617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound correspondence patterns form the basis of cognate detection and
phonological reconstruction in historical language comparison. Methods for the
automatic inference of correspondence patterns from phonetically aligned
cognate sets have been proposed, but their application to multilingual
wordlists requires extremely well annotated datasets. Since annotation is
tedious and time consuming, it would be desirable to find ways to improve
aligned cognate data automatically. Taking inspiration from trimming techniques
in evolutionary biology, which improve alignments by excluding problematic
sites, we propose a workflow that trims phonetic alignments in comparative
linguistics prior to the inference of correspondence patterns. Testing these
techniques on a large standardized collection of ten datasets with expert
annotations from different language families, we find that the best trimming
technique substantially improves the overall consistency of the alignments. The
results show a clear increase in the proportion of frequent correspondence
patterns and words exhibiting regular cognate relations.
- Abstract(参考訳): 音の対応パターンは、歴史的言語比較におけるコグネート検出と音韻的再構成の基礎を形成する。
音素的に整列したコグネート集合からの対応パターンの自動推定法が提案されているが、多言語単語リストへの適用には、非常によく注釈付きデータセットが必要である。
アノテーションは退屈で時間がかかるので、協調したコグネイトデータを自動的に改善する方法を見出すのが望ましいでしょう。
問題箇所を除外してアライメントを改善する進化生物学のトリミング技術からインスピレーションを得て,対応パターンの推測に先立って,比較言語学における音声アライメントをトリミングするワークフローを提案する。
これらのテクニックを、異なる言語ファミリーのエキスパートアノテーションを持つ10のデータセットの大規模な標準化されたコレクション上でテストすると、最良のトリミング技術がアライメント全体の一貫性を大幅に改善することがわかった。
その結果,コグネート関係を示す頻繁な対応パターンや単語の割合は明らかに増加した。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Automated Cognate Detection as a Supervised Link Prediction Task with
Cognate Transformer [4.609569810881602]
関連する言語をまたいだコニャートの同定は、歴史的言語学における主要な問題の一つである。
本稿では,コグネート自動検出のための計算生物学にインスパイアされたトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-05T11:47:36Z) - Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification [60.28913031192201]
順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
論文 参考訳(メタデータ) (2023-06-24T04:11:31Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A New Framework for Fast Automated Phonological Reconstruction Using
Trimmed Alignments and Sound Correspondence Patterns [2.6212127510234797]
自動シーケンス比較のための最先端技術と音声アライメント解析と音声対応パターン検出のための新しい手法を組み合わせた新しいフレームワークを提案する。
提案手法は, 高速であると同時に, 適用および拡張が容易であると同時に, 有望な結果をもたらす。
論文 参考訳(メタデータ) (2022-04-10T07:11:19Z) - Dynamically Refined Regularization for Improving Cross-corpora Hate
Speech Detection [30.462596705180534]
ヘイト音声分類器は、ソースと異なるデータセットで評価した場合、かなりの性能劣化を示す。
これまでの研究は、定義済みの静的辞書から特定の用語を正規化することでこの問題を緩和しようと試みてきた。
本稿では,単語リストを動的に洗練した帰属的手法を用いて,素早い相関を自動同定し,低減する手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T16:58:10Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。