論文の概要: Automated Cognate Detection as a Supervised Link Prediction Task with
Cognate Transformer
- arxiv url: http://arxiv.org/abs/2402.02926v1
- Date: Mon, 5 Feb 2024 11:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:34:56.557638
- Title: Automated Cognate Detection as a Supervised Link Prediction Task with
Cognate Transformer
- Title(参考訳): コグネート変換器を用いたリンク予測タスクとしての自動コグネート検出
- Authors: V.S.D.S.Mahesh Akavarapu and Arnab Bhattacharya
- Abstract要約: 関連する言語をまたいだコニャートの同定は、歴史的言語学における主要な問題の一つである。
本稿では,コグネート自動検出のための計算生物学にインスパイアされたトランスフォーマーアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 4.609569810881602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identification of cognates across related languages is one of the primary
problems in historical linguistics. Automated cognate identification is helpful
for several downstream tasks including identifying sound correspondences,
proto-language reconstruction, phylogenetic classification, etc. Previous
state-of-the-art methods for cognate identification are mostly based on
distributions of phonemes computed across multilingual wordlists and make
little use of the cognacy labels that define links among cognate clusters. In
this paper, we present a transformer-based architecture inspired by
computational biology for the task of automated cognate detection. Beyond a
certain amount of supervision, this method performs better than the existing
methods, and shows steady improvement with further increase in supervision,
thereby proving the efficacy of utilizing the labeled information. We also
demonstrate that accepting multiple sequence alignments as input and having an
end-to-end architecture with link prediction head saves much computation time
while simultaneously yielding superior performance.
- Abstract(参考訳): 関連言語間における認識の同定は、歴史的言語学における主要な問題の一つである。
自動コグネート同定は、音の対応の特定、原言語再構築、系統分類など、下流のいくつかのタスクに役立ちます。
以前のコグネート識別法は、主に多言語単語リストで計算された音素の分布に基づいており、コグネートクラスタ間のリンクを定義するコグネートラベルをほとんど使用していない。
本稿では,コグネート自動検出のための計算生物学にインスパイアされたトランスフォーマーアーキテクチャを提案する。
一定の監督範囲を超えて、既存の方法よりも優れた性能を示し、さらなる監督強化とともに着実に改善され、ラベル付き情報の利用の有効性が証明される。
また,複数のシーケンスアライメントを入力として受け入れ,リンク予測ヘッドを備えたエンドツーエンドアーキテクチャを持つことにより,優れた性能を実現すると同時に,計算時間を節約できることを実証した。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Weakly-supervised Deep Cognate Detection Framework for Low-Resourced
Languages Using Morphological Knowledge of Closely-Related Languages [1.7622337807395716]
アンダーリソース言語でのトランスファーラーニングのためのコニャートを爆発させることは、言語理解タスクのエキサイティングな機会である。
従来のアプローチは主に、正書法、音声学、あるいは最先端の文脈言語モデルに基づくコグネート検出タスクの監督に重点を置いていた。
本稿では、アンダーリソース言語に対する言語に依存しない弱教師付き深層コグネート検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T05:46:41Z) - Cognate Transformer for Automated Phonological Reconstruction and
Cognate Reflex Prediction [4.609569810881602]
我々は,タンパク質言語モデルであるMSA Transformerを自動音韻再構成の問題に適用した。
MSA Transformerは複数のシーケンスアライメントを入力としてトレーニングし、コグネートな単語に適応する。
また、このモデルを他の関連するタスク、すなわち、他の娘言語のコグナネートな単語に基づいて娘言語の反射語を予測するコグナネートな反射予測に適用する。
論文 参考訳(メタデータ) (2023-10-11T13:34:22Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - Trimming Phonetic Alignments Improves the Inference of Sound
Correspondence Patterns from Multilingual Wordlists [3.096615629099617]
音素的に整列したコグネート集合からの対応パターンの自動推定法が提案されている。
アノテーションは退屈で時間を要するため、コーグネートデータを自動的に改善する方法を見つけることが望ましい。
本稿では、対応パターンの推測に先立って、比較言語学における音韻アライメントをトリムするワークフローを提案する。
論文 参考訳(メタデータ) (2023-03-31T09:55:48Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Generative latent neural models for automatic word alignment [0.0]
変分オートエンコーダは、最近、自然言語処理において、言語生成タスクに有用な教師なしの潜在表現を学習するために、様々な自然言語処理で使用されている。
本稿では,単語アライメント作業のためのこれらのモデルについて検討し,バニラ変分オートエンコーダのいくつかの進化について提案・評価する。
これらの手法は、Giza++と2つの言語ペアに対して強力なニューラルネットワークアライメントシステムに比較して、競争力のある結果が得られることを実証する。
論文 参考訳(メタデータ) (2020-09-28T07:54:09Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。