論文の概要: Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data
- arxiv url: http://arxiv.org/abs/2604.22730v1
- Date: Fri, 24 Apr 2026 17:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.54425
- Title: Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data
- Title(参考訳): 現代データを用いたバントゥー語の歴史的語彙構造のニューラルリカバリ
- Authors: Hillary Mutisya, John Mugane,
- Abstract要約: 現代の形態データに特化して訓練された神経モデルは、歴史的復元と整合した言語間の語彙構造を復元することができる。
14の東バントゥー語と南バントゥー語を分析し、5以上の言語で共有される728の名詞と1,525の動詞を識別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether neural models trained exclusively on modern morphological data can recover cross-lingual lexical structure consistent with historical reconstruction. Using BantuMorph v7, a transformer over Bantu morphological paradigms, we analyze 14 Eastern and Southern Bantu languages, extract encoder embeddings for their noun and verb lemmas, and identify 728 noun and 1,525 verb cognate candidates shared across 5+ languages. Evaluating these candidates against established historical resources-the Bantu Lexical Reconstructions database (BLR3; 4,786 reconstructed Proto-Bantu forms) and the ASJP basic vocabulary-we confirm 10 of the top 11 noun candidates (90.9%) align with previously reconstructed Proto-Bantu forms, including *-ntU 'person' (8 languages), *gombe 'cow' (9 languages), and *mUn (9 languages). Extending to verbs, 12 verb cognates align with reconstructed Proto-Bantu roots, including *-bon- 'see' and *-jIm- 'stand', each attested across wide geographic ranges. Cross-model validation using an independent translation model (NLLB-600M) confirms these patterns: both models recover cognate clusters and phylogenetic groupings consistent with established Guthrie-zone classifications (p < 0.01). Cross-lingual noun class analysis reveals that all 13 productive classes maintain >0.83 cosine similarity across languages (within-class > between-class, p < 10^-9). Our dataset is restricted to Eastern and Southern Bantu, so we interpret these results as recovering shared Bantu lexical structure consistent with Proto-Bantu rather than definitively distinguishing Proto-Bantu retentions from later regional innovations.
- Abstract(参考訳): 本研究では,現代形態データのみを訓練したニューラルモデルが,歴史的復元と整合した言語間語彙構造を復元できるかどうかを考察する。
BantuMorph v7はバントゥーの形態的パラダイム上の変換器であり、14の東バントゥー語と南バントゥー語を分析し、名詞と動詞の補題のエンコーダ埋め込みを抽出し、728の名詞と1,525の動詞を5以上の言語で共有する。
BLR3 (Bantu Lexical Reconstructions database) と ASJP Basic vocabulary-We confirmed 10 of the top 11 noun candidate (90.9%) は、 *-ntU 'person' (8言語)、 *gombe 'cow' (9言語)、 *mUn (9言語) を含む以前の再建された Proto-Bantu 形式と一致している。
動詞に拡張して、12の動詞コニャートは*-bon- 'see' や *-jIm- 'stand' を含む再構成されたプロトバントゥ語根と一致し、それぞれ広い範囲で証明される。
独立翻訳モデル (NLLB-600M) を用いたクロスモデル検証ではこれらのパターンが確認されている。
言語間名詞クラス解析により、すべての13の生産クラスが言語間で0.83のコサイン類似性を維持していることが明らかとなった(クラス間でのクラス> p < 10^-9)。
我々のデータセットは東バントゥーと南バントゥーに限られているため、これらの結果は後の地域革新と断定的に区別するのではなく、プロトバントゥーと整合した共有バントゥー語彙構造を復元したものと解釈する。
関連論文リスト
- Zero-Shot Morphological Discovery in Low-Resource Bantu Languages via Cross-Lingual Transfer and Unsupervised Clustering [0.0]
本稿では,言語間変換学習と教師なしクラスタリングを組み合わせることで,低リソースバントゥー言語における形態的特徴を発見する手法を提案する。
我々のパイプラインは,2,455語の名詞クラス割り当てを発見し,以前は文書化されていなかった2つの形態素パターンを同定する。
私たちはすべてのコードをリリースし、低リソースのBantu言語のための形態学的ドキュメントをサポートするためにレキシコンを発見しました。
論文 参考訳(メタデータ) (2026-04-24T17:21:00Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Deep learning model for Mongolian Citizens Feedback Analysis using Word
Vector Embeddings [0.0]
本研究では,2つの単語埋め込みを用いたモンゴル語のフィードバック分類について検討した。
2012年から2018年にかけて収集されたCyrillicのフィードバックデータを使用します。
その結果, 単語の埋め込みは, 深層学習に基づく提案モデルを改善することが示唆された。
論文 参考訳(メタデータ) (2023-02-23T14:49:31Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Deep Lexical Hypothesis: Identifying personality structure in natural
language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文 参考訳(メタデータ) (2022-03-04T02:06:10Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。