論文の概要: Using Correspondence Patterns to Identify Irregular Words in Cognate sets Through Leave-One-Out Validation
- arxiv url: http://arxiv.org/abs/2602.02221v1
- Date: Mon, 02 Feb 2026 15:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.252984
- Title: Using Correspondence Patterns to Identify Irregular Words in Cognate sets Through Leave-One-Out Validation
- Title(参考訳): 連接集合における不規則単語の残差検証による対応パターンの同定
- Authors: Frederic Blum, Johann-Mattis List,
- Abstract要約: 規則性の新たな尺度として,対応パターンのバランスの取れた平均について述べる。
また、この測度を用いて正則性を持たないコグネート集合を同定する新しい計算方法を提案する。
本手法は,実データに基づくデータセットで全体の85%の精度を実現する。
- 参考スコア(独自算出の注目度): 8.407933796998813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Regular sound correspondences constitute the principal evidence in historical language comparison. Despite the heuristic focus on regularity, it is often more an intuitive judgement than a quantified evaluation, and irregularity is more common than expected from the Neogrammarian model. Given the recent progress of computational methods in historical linguistics and the increased availability of standardized lexical data, we are now able to improve our workflows and provide such a quantitative evaluation. Here, we present the balanced average recurrence of correspondence patterns as a new measure of regularity. We also present a new computational method that uses this measure to identify cognate sets that lack regularity with respect to their correspondence patterns. We validate the method through two experiments, using simulated and real data. In the experiments, we employ leave-one-out validation to measure the regularity of cognate sets in which one word form has been replaced by an irregular one, checking how well our method identifies the forms causing the irregularity. Our method achieves an overall accuracy of 85\% with the datasets based on real data. We also show the benefits of working with subsamples of large datasets and how increasing irregularity in the data influences our results. Reflecting on the broader potential of our new regularity measure and the irregular cognate identification method based on it, we conclude that they could play an important role in improving the quality of existing and future datasets in computer-assisted language comparison.
- Abstract(参考訳): 通常の音の対応は、歴史的言語の比較において主要な証拠となっている。
正則性へのヒューリスティックな焦点にもかかわらず、これは定量化評価よりも直感的な判断であり、不規則性はNeogrammarianモデルから予想されるよりも一般的である。
歴史的言語学における計算手法の最近の進歩と、標準化された語彙データの可用性の向上を踏まえ、我々はワークフローを改善し、そのような定量的評価を行うことができる。
そこで本研究では,正則性の新たな尺度として,対応パターンのバランスの取れた平均繰り返しについて述べる。
また、この尺度を用いて、対応パターンに関して規則性に欠けるコグネート集合を同定する新しい計算方法を提案する。
シミュレーションデータと実データを用いた2つの実験により,本手法の有効性を検証した。
実験では,1つの単語形式が不規則なものに置き換えられたコグネート集合の正則性を測定するために,残余検証を用い,その不規則性の原因となる形式をどの程度の精度で識別するかを確認する。
本手法は,実データに基づくデータセットの総合精度を85倍に向上する。
また、大規模なデータセットのサブサンプルで作業することの利点と、データの不規則性の増加が結果にどのように影響するかを示す。
新たな正則性尺度とそれに基づく不規則なコグネート同定手法の広範なポテンシャルを反映して、コンピュータ支援言語比較において、既存のデータセットと将来のデータセットの品質向上に重要な役割を果たす可能性があると結論付けている。
関連論文リスト
- Verified Language Processing with Hybrid Explainability: A Technical Report [0.7066382982173529]
この問題に対処するために,ハイブリッドな説明責任を設計した新しいパイプラインを提案する。
我々の手法はグラフと論理を組み合わせて一階述語論理表現を生成し、モンタギュー文法を通して機械的・人間的可読表現を生成する。
予備的な結果は,本手法が全文類似性を捉える上での有効性を示している。
論文 参考訳(メタデータ) (2025-07-07T14:00:05Z) - Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications [5.266869303483375]
単語誤り率(WER)は自動音声認識(ASR)の精度の一般的な尺度である
本稿では,ロバストな WER を計算するために,拡張Levenshtein 距離アルゴリズムを用いた非破壊的トークンベース手法を提案する。
我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。
論文 参考訳(メタデータ) (2024-08-28T08:14:51Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。