論文の概要: findsylls: A Language-Agnostic Toolkit for Syllable-Level Speech Tokenization and Embedding
- arxiv url: http://arxiv.org/abs/2603.26292v1
- Date: Fri, 27 Mar 2026 11:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.4598
- Title: findsylls: A Language-Agnostic Toolkit for Syllable-Level Speech Tokenization and Embedding
- Title(参考訳): findsylls:Syllable-Level音声トークン化と埋め込みのための言語に依存しないツールキット
- Authors: Héctor Javier Vázquez Martínez,
- Abstract要約: findsyllsは古典音節検出器とエンドツーエンドの音節分類器を統一する言語に依存しないツールキットである。
広く使われているメソッド(例えば、Sylber、VG-HuBERT)を実装し標準化し、コンポーネントを再結合できるようにする。
我々は、英語とスペイン語のコーパスと、文書化されていない中央マンデ語であるKonoからの新しい手書きデータについて、ファインシルを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Syllable-level units offer compact and linguistically meaningful representations for spoken language modeling and unsupervised word discovery, but research on syllabification remains fragmented across disparate implementations, datasets, and evaluation protocols. We introduce findsylls, a modular, language-agnostic toolkit that unifies classical syllable detectors and end-to-end syllabifiers under a common interface for syllable segmentation, embedding extraction, and multi-granular evaluation. The toolkit implements and standardizes widely used methods (e.g., Sylber, VG-HuBERT) and allows their components to be recombined, enabling controlled comparisons of representations, algorithms, and token rates. We demonstrate findsylls on English and Spanish corpora and on new hand-annotated data from Kono, an underdocumented Central Mande language, illustrating how a single framework can support reproducible syllable-level experiments across both high-resource and under-resourced settings.
- Abstract(参考訳): シラブルレベルユニットは、音声言語モデリングと教師なし単語発見のためのコンパクトで言語的に意味のある表現を提供するが、シラビフィケーションの研究は、異なる実装、データセット、評価プロトコルで断片化されている。
我々は,古典音節検出器とエンドツーエンドの音節分割,埋め込み抽出,多粒度評価のための共通インターフェースの下で,従来の音節検出器とエンドツーエンドの音節分類器を統一するモジュール型言語依存ツールキットである findsylls を紹介する。
このツールキットは広く使われているメソッド(例えば、Sylber、VG-HuBERT)を実装し、それらのコンポーネントを再結合し、表現、アルゴリズム、トークンレートの制御された比較を可能にする。
我々は、英語とスペイン語のコーパスと、文書化されていない中央マンデ語であるKonoからの新しい手書きデータに基づいて、単一フレームワークがハイリソースとアンダーリソースの両方で再現可能な音節レベルの実験をどのようにサポートできるかを実証する。
関連論文リスト
- What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。
我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。
我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文 参考訳(メタデータ) (2026-02-19T18:58:39Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Design and Implementation of a Tool for Extracting Uzbek Syllables [0.0]
シラビフィケーション(Syllabification)は、言語研究、言語技術、教育、および様々な分野に応用された多用途の言語ツールである。
本稿では,ルールベースの手法や機械学習アルゴリズムを含む,ウズベク語のシラビフィケーションに対する包括的アプローチを提案する。
実験の結果,両アプローチは高い精度を示し,99%以上であった。
論文 参考訳(メタデータ) (2023-12-25T17:46:58Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。