論文の概要: Symphonym: Universal Phonetic Embeddings for Cross-Script Toponym Matching via Teacher-Student Distillation
- arxiv url: http://arxiv.org/abs/2601.06932v1
- Date: Sun, 11 Jan 2026 14:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.073058
- Title: Symphonym: Universal Phonetic Embeddings for Cross-Script Toponym Matching via Teacher-Student Distillation
- Title(参考訳): シンフォニム:教師-学生蒸留によるクロススクリプトトポニムマッチングのためのユニバーサル音声埋め込み
- Authors: Stephen Gadd,
- Abstract要約: Symphonym(シンフォニム)は、20の書記系から一貫した音声空間にトポニムをマッピングする、ニューラルネットワークの埋め込みシステムである。
トレーニングはGeoNames、Wikidata、Getty Thesaurus of Geographic Namesの5700万のトポニムに3段階のカリキュラムを使用している。
ワールド・ヒストリカル・ガゼッタの6700万のトポニムをまたいで、ファジィな音声の調停と検索を可能にします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linking place names across languages and writing systems is a fundamental challenge in digital humanities and geographic information retrieval. Existing approaches rely on language-specific phonetic algorithms or transliteration rules that fail when names cross script boundaries -- no string metric can determine that "Moscow" when rendered in Cyrillic or Arabic refer to the same city. I present Symphonym, a neural embedding system that maps toponyms from 20 writing systems into a unified 128-dimensional phonetic space. A Teacher network trained on articulatory phonetic features (via Epitran and PanPhon) produces target embeddings, while a Student network learns to approximate these from raw characters. At inference, only the lightweight Student (1.7M parameters) is required, enabling deployment without runtime phonetic conversion. Training uses a three-phase curriculum on 57 million toponyms from GeoNames, Wikidata, and the Getty Thesaurus of Geographic Names. Phase 1 trains the Teacher on 467K phonetically-grounded triplets. Phase 2 aligns the Student to Teacher outputs across 23M samples, achieving 96.6% cosine similarity. Phase 3 fine-tunes on 3.3M hard negative triplets -- negatives sharing prefix and script with the anchor but referring to different places -- to sharpen discrimination. Evaluation on the MEHDIE Hebrew-Arabic benchmark achieves 89.2% Recall@1, outperforming Levenshtein (81.5%) and Jaro-Winkler (78.5%). The system is optimised for cross-script matching; same-script variants can be handled by complementary string methods. Symphonym will enable fuzzy phonetic reconciliation and search across the World Historical Gazetteer's 67 million toponyms. Code and models are publicly available.
- Abstract(参考訳): 地名を言語や書記システムにリンクすることは、デジタル人文科学と地理情報検索の基本的な課題である。
既存のアプローチは、名前がスクリプトの境界を越えたときに失敗する言語固有の音声アルゴリズムや音訳規則に依存している。
今回紹介するSymphonymは、20の書記システムから128次元の統一音声空間にトポニムをマッピングする、ニューラルネットワークの埋め込みシステムだ。
Epitran と PanPhon による)音声特徴を訓練した教師ネットワークは、ターゲット埋め込みを生成し、学生ネットワークは、これらを生の文字から近似することを学ぶ。
推測では、軽量な学生(1.7Mパラメータ)しか必要とせず、実行時の音声変換なしでデプロイできる。
トレーニングはGeoNames、Wikidata、Getty Thesaurus of Geographic Namesの5700万のトポニムに3段階のカリキュラムを使用している。
第1段階は467Kで教師を訓練する。
第2段階では、23万のサンプルに対して学生と教師の出力を調整し、96.6%のコサイン類似性を達成している。
3.3Mの硬い三つ子(負の接頭辞とスクリプトをアンカーで共有するが、異なる場所を参照する)に対する第3フェーズの微調整は、差別を鋭くする。
MEHDIEヘブライ・アラビアベンチマークの評価は89.2%のリコール@1を達成し、レヴェンシュテイン(81.5%)とヤロ・ヴィンクラー(78.5%)を上回った。
システムはクロススクリプトマッチングに最適化されており、同文の変種は補完的な文字列メソッドで扱うことができる。
Symphonymは、World Historical Gazetteerの6700万のトポニムで、ファジィな音声の調停と検索を可能にする。
コードとモデルは公開されている。
関連論文リスト
- Towards stable AI systems for Evaluating Arabic Pronunciations [0.7999703756441757]
この音素レベルの課題は、単独の文字には共調的手がかりがなく、語彙的文脈がなく、数百ミリ秒しか持たないため、困難であることを示す。
本研究は、アラビア文字の多様で分類されたコーパスを導入し、最先端のwav2vec 2.0モデルが35%の精度しか達成していないことを示す。
論文 参考訳(メタデータ) (2025-08-27T05:49:15Z) - Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - Allophant: Cross-lingual Phoneme Recognition with Articulatory
Attributes [0.0]
アロファントは多言語音素認識器である。
ターゲット言語への言語間移動には音素の在庫しか必要としない。
AllophoibleはPHOIBLEデータベースの拡張である。
論文 参考訳(メタデータ) (2023-06-07T10:11:09Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - edATLAS: An Efficient Disambiguation Algorithm for Texting in Languages
with Abugida Scripts [0.0]
アブティダ(abugida)は、各音節を単一の子音またはタイポグラフィーのリガチュアで表現する音素表記システムである。
本稿では, あいまいな表現アルゴリズムを提案し, バグダ記述システムを用いた2つの新しい入力方式でその有用性を示す。
ヒンディー語、ベンガル語、タイ語での入力速度は19.49%、25.13%、14.89%向上した。
論文 参考訳(メタデータ) (2021-01-05T03:16:34Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。