論文の概要: Parallel Needleman-Wunsch on CUDA to measure word similarity based on phonetic transcriptions
- arxiv url: http://arxiv.org/abs/2509.01654v1
- Date: Mon, 01 Sep 2025 17:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.805734
- Title: Parallel Needleman-Wunsch on CUDA to measure word similarity based on phonetic transcriptions
- Title(参考訳): CUDAにおけるパラレルニードルマン・ウンシュによる音素転写に基づく単語類似度の測定
- Authors: Dominic Plein,
- Abstract要約: 本稿では,Nearleman-Wunschアルゴリズムを用いて,音素の書き起こし(発音)に基づいて単語間の類似度を算出する手法を提案する。
このアルゴリズムをRustで実装し、CPUとGPUの両方で並列化して、大規模なデータセットを効率的に処理します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method to calculate the similarity between words based on their phonetic transcription (their pronunciation) using the Needleman-Wunsch algorithm. We implement this algorithm in Rust and parallelize it on both CPU and GPU to handle large datasets efficiently. The GPU implementation leverages CUDA and the cudarc Rust library to achieve significant performance improvements. We validate our approach by constructing a fully-connected graph where nodes represent words and edges have weights according to the similarity between the words. This graph is then analyzed using clustering algorithms to identify groups of phonetically similar words. Our results demonstrate the feasibility and effectiveness of the proposed method in analyzing the phonetic structure of languages. It might be easily expanded to other languages.
- Abstract(参考訳): 本稿では,Nearleman-Wunschアルゴリズムを用いて,音素の書き起こし(発音)に基づいて単語間の類似度を算出する手法を提案する。
このアルゴリズムをRustで実装し、CPUとGPUの両方で並列化して、大規模なデータセットを効率的に処理します。
GPU実装ではCUDAとcudarc Rustライブラリを活用して、大幅なパフォーマンス向上を実現している。
我々は,単語とエッジが単語間の類似性に応じて重みを持つ完全連結グラフを構築することにより,我々のアプローチを検証する。
このグラフはクラスタリングアルゴリズムを用いて分析され、音声的に類似した単語のグループを識別する。
本研究は,言語音声構造解析における提案手法の有効性と有効性を示すものである。
他の言語にも容易に拡張できる。
関連論文リスト
- NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - A Graph Diffusion Algorithm for Lexical Similarity Evaluation [0.0]
本稿では,ある言語と複数の参照言語クラスタ間の語彙的類似性を評価するアルゴリズムを提案する。
それぞれの概念に対して、アルゴリズムはそれぞれの翻訳間の距離を計算する。
このアルゴリズムは、多言語領域で話される言語間の関係を多くの相互影響で分析するのに有用である。
論文 参考訳(メタデータ) (2025-04-09T12:17:08Z) - A Novel Word Pair-based Gaussian Sentence Similarity Algorithm For Bengali Extractive Text Summarization [1.3791394805787949]
本稿では,2つの文間の意味的関係を計算するために,ワードペアベースのガウス文類似性(WGSS)アルゴリズムを提案する。
単語平均化法で直面する文表現問題を補正する単語対単語ベースで2つの文を比較する。
提案手法は, 4つの異なるデータセットを用いて検証し, ROUGEの平均値に対して43.2%向上した。
論文 参考訳(メタデータ) (2024-11-26T07:42:16Z) - Ensemble Quadratic Assignment Network for Graph Matching [52.20001802006391]
グラフマッチングはコンピュータビジョンやパターン認識において一般的に用いられる技法である。
最近のデータ駆動型アプローチは、グラフマッチングの精度を著しく改善した。
データ駆動手法と従来の手法の利点を組み合わせたグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-11T06:34:05Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - Text Information Aggregation with Centrality Attention [86.91922440508576]
本稿では, 固有中央集権自己注意という, 集権重み付けの新たな方法を提案する。
文中のすべての単語に対する完全連結グラフを構築し,各単語の注意点として固有中央性を計算する。
論文 参考訳(メタデータ) (2020-11-16T13:08:48Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Morfessor EM+Prune: Improved Subword Segmentation with Expectation
Maximization and Pruning [14.116412358534442]
本稿では,予測最大化アルゴリズムと辞書プルーニングに基づく,ユニグラムサブワードモデルのトレーニングアルゴリズムについて検討・比較する。
提案手法は,Morfessor Baselineモデルによって定義される最適化問題に対して,よりよい解を求めることができることを示す。
改良された最適化により、言語的なゴールド標準と比較して、モルフォロジーのセグメンテーション精度が向上する。
論文 参考訳(メタデータ) (2020-03-06T10:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。