論文の概要: Transformer-Enabled Diachronic Analysis of Vedic Sanskrit: Neural Methods for Quantifying Types of Language Change
- arxiv url: http://arxiv.org/abs/2512.05364v1
- Date: Fri, 05 Dec 2025 02:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.866826
- Title: Transformer-Enabled Diachronic Analysis of Vedic Sanskrit: Neural Methods for Quantifying Types of Language Change
- Title(参考訳): 変圧器によるベディドサンスクリットのダイアクロニック解析:言語変化のタイプを定量化するためのニューラル手法
- Authors: Ananth Hariharan, David Mortensen,
- Abstract要約: 本研究は, ニューラルシンボリックなハイブリッド手法が, 形態学的にリッチで低リソースな言語の進化に対して, 新たな洞察をもたらすことを実証した。
サンスクリットの2000年以上の期間を定量的に分析し、形態学的にリッチで低リソースな言語の進化に関する新たな洞察をいかに弱く教師付きハイブリッド手法が得るかを実証した。
- 参考スコア(独自算出の注目度): 0.10742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study demonstrates how hybrid neural-symbolic methods can yield significant new insights into the evolution of a morphologically rich, low-resource language. We challenge the naive assumption that linguistic change is simplification by quantitatively analyzing over 2,000 years of Sanskrit, demonstrating how weakly-supervised hybrid methods can yield new insights into the evolution of morphologically rich, low-resource languages. Our approach addresses data scarcity through weak supervision, using 100+ high-precision regex patterns to generate pseudo-labels for fine-tuning a multilingual BERT. We then fuse symbolic and neural outputs via a novel confidence-weighted ensemble, creating a system that is both scalable and interpretable. Applying this framework to a 1.47-million-word diachronic corpus, our ensemble achieves a 52.4% overall feature detection rate. Our findings reveal that Sanskrit's overall morphological complexity does not decrease but is instead dynamically redistributed: while earlier verbal features show cyclical patterns of decline, complexity shifts to other domains, evidenced by a dramatic expansion in compounding and the emergence of new philosophical terminology. Critically, our system produces well-calibrated uncertainty estimates, with confidence strongly correlating with accuracy (Pearson r = 0.92) and low overall calibration error (ECE = 0.043), bolstering the reliability of these findings for computational philology.
- Abstract(参考訳): 本研究は, ニューラルシンボリックなハイブリッド手法が, 形態学的にリッチで低リソースな言語の進化に対して, 新たな洞察をもたらすことを実証した。
我々は,サンスクリットの2000年以上の期間を定量的に分析することで,言語変化が単純化されるというナイーブな仮定に挑戦し,形態学的にリッチで低リソースな言語の進化に対する新たな洞察をいかに弱く教師付きハイブリッド手法が得るかを示す。
提案手法は,多言語BERTを微調整する擬似ラベルを生成するために,100以上の高精度なRegexパターンを用いて,データ不足に対処する。
そして、新しい信頼度重み付けアンサンブルを通じてシンボルとニューラルアウトプットを融合させ、スケーラブルで解釈可能なシステムを作ります。
このフレームワークを1.47万ワードのダイアクロニックコーパスに適用すると、我々のアンサンブルは52.4%の全体的な特徴検出率を達成する。
以上の結果から,サンスクリットの全体的な形態的複雑性は低下せず,動的に再分布することが明らかとなった。
批判的に,本システムは精度(ピアソン r = 0.92)と低い全体的な校正誤差(ECE = 0.043)に強く関連し,精度の高い校正不確実性推定を行い,計算文献学におけるこれらの結果の信頼性を高める。
関連論文リスト
- Sensitivity of Small Language Models to Fine-tuning Data Contamination [0.0]
小言語モデル(SLM)は、資源に制約のある環境にますますデプロイされている。
命令チューニング中の構文的および意味的変換タイプに対する感受性を計測する。
文字反転はサイズや家族に関係なく、すべてのモデルでほぼ完全に失敗する。
セマンティック・トランスフォーメーションは、異なるしきい値の挙動を示し、コア言語能力においてより強いレジリエンスを示す。
論文 参考訳(メタデータ) (2025-11-10T06:44:29Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文 参考訳(メタデータ) (2024-10-21T19:12:33Z) - Understanding Compositional Data Augmentation in Typologically Diverse
Morphological Inflection [7.186503504193154]
我々は、著名なデータ強化戦略であるStemCorruptの理論的側面に光を当てた。
我々は,StemCorruptは形態素間の素早い相関を排除し,構成一般化を改善することを示す。
また,タイプ的特徴がデータ選択戦略の選択に与える影響についても検討する。
論文 参考訳(メタデータ) (2023-05-23T04:02:54Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Bootstrapping Techniques for Polysynthetic Morphological Analysis [9.655349059913888]
ニューラルモルフォロジーアナライザをブートストラップするための言語的インフォームドアプローチを提案する。
有限状態トランスデューサからデータを生成し,エンコーダデコーダモデルを訓練する。
学習データに欠落する言語構造を「ハロシン化」し、Zipf分布から再サンプリングすることで、形態素のより自然な分布をシミュレートすることでモデルを改善する。
論文 参考訳(メタデータ) (2020-05-03T00:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。