論文の概要: Grapheme-Coherent Phonemic and Prosodic Annotation of Speech by Implicit and Explicit Grapheme Conditioning
- arxiv url: http://arxiv.org/abs/2506.04527v1
- Date: Thu, 05 Jun 2025 00:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.469516
- Title: Grapheme-Coherent Phonemic and Prosodic Annotation of Speech by Implicit and Explicit Grapheme Conditioning
- Title(参考訳): 暗黙的および明示的なグラファイム条件による音声の音素・韻律的アノテーション
- Authors: Hien Ohnaka, Yuma Shirahata, Byeongseon Park, Ryuichi Yamamoto,
- Abstract要約: 本稿では,グラテムに忠実な音声の音素ラベルと韻律ラベルを得るモデルを提案する。
実験の結果,提案手法はグラフエムと予測ラベルとの整合性を著しく改善した。
- 参考スコア(独自算出の注目度): 9.413818055887763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a model to obtain phonemic and prosodic labels of speech that are coherent with graphemes. Unlike previous methods that simply fine-tune a pre-trained ASR model with the labels, the proposed model conditions the label generation on corresponding graphemes by two methods: 1) Add implicit grapheme conditioning through prompt encoder using pre-trained BERT features. 2) Explicitly prune the label hypotheses inconsistent with the grapheme during inference. These methods enable obtaining parallel data of speech, the labels, and graphemes, which is applicable to various downstream tasks such as text-to-speech and accent estimation from text. Experiments showed that the proposed method significantly improved the consistency between graphemes and the predicted labels. Further, experiments on accent estimation task confirmed that the created parallel data by the proposed method effectively improve the estimation accuracy.
- Abstract(参考訳): 本稿では,グラテムに忠実な音声の音素ラベルと韻律ラベルを得るモデルを提案する。
ラベル付き事前学習されたASRモデルを単純に微調整する従来の方法とは異なり、提案モデルは2つの方法で対応するグラフ上でラベル生成を条件付ける。
1) 事前学習したBERT特徴を用いたプロンプトエンコーダによる暗黙のグラファイム条件の追加。
2) 推論中にラベルがグラテムと一致しないことを明示的に証明する。
これらの手法により、テキスト音声やアクセント推定など、さまざまな下流タスクに適用可能な、音声、ラベル、グラフの並列データを取得することができる。
実験の結果,提案手法はグラフエムと予測ラベルとの整合性を著しく改善した。
さらに, アクセント推定実験により, 提案手法による並列データの生成により, 推定精度が向上することが確認された。
関連論文リスト
- Pre-Training and Prompting for Few-Shot Node Classification on Text-Attributed Graphs [35.44563283531432]
テキスト分散グラフ(英: Text-attributed graph、TAG)は、生のテキストに関連付けられた各ノードを持つ、現実世界の重要なグラフ構造化データの一種である。
TAGでは、従来の数発のノード分類手法が、事前処理されたノード機能で直接トレーニングを行う。
P2TAGは、グラフ事前学習とプロンプトを備えたTAG上の少数ショットノード分類のためのフレームワークである。
論文 参考訳(メタデータ) (2024-07-22T07:24:21Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。
ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。
本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T05:59:41Z) - Enhancing Continual Learning with Global Prototypes: Counteracting
Negative Representation Drift [16.177180198865848]
継続的な学習は、あるタスクから別のタスクにデータ分散がシフトすることで、時間の経過とともに一連のタスクを学習することを目的としている。
負の表現の漂流は、局所的に学習されたクラスプロトタイプとデータ表現がタスク間で相関が悪くなることによって、破滅的な忘れを引き起こす可能性がある。
本稿では,学習のガイドとなるグローバルプロトタイプを見つけ,自己教師型情報の正規化によってデータ表現を学習する手法を提案する。
論文 参考訳(メタデータ) (2022-05-24T16:41:30Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Graph-based Label Propagation for Semi-Supervised Speaker Identification [10.87690067963342]
家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
提案手法は,2つの最先端スコアリング手法と比較して,ラベル付きデータの有効利用と話者識別精度の向上を図っている。
論文 参考訳(メタデータ) (2021-06-15T15:10:33Z) - Finding Friends and Flipping Frenemies: Automatic Paraphrase Dataset
Augmentation Using Graph Theory [21.06607915149245]
提案する文ペアラベルからパラフレーズグラフを構築し,推移性特性を用いて原文ペアから直接ラベルを推測することにより,拡張データセットを作成する。
提案手法は,事前学習されたBERTモデルから始まるこれらのデータセットを用いて学習したパラフレーズモデルを用いて評価し,自動強化されたトレーニングセットによりより正確なモデルが得られることを示す。
論文 参考訳(メタデータ) (2020-11-03T17:18:03Z) - Handling Missing Data with Graph Representation Learning [62.59831675688714]
特徴量計算とラベル予測のためのグラフベースのフレームワークであるGRAPEを提案する。
GRAPEでは,特徴計算をエッジレベル予測タスク,ラベル予測をノードレベル予測タスクとして定式化する。
9つのベンチマークデータセットによる実験結果から、GRAPEは計算タスクの平均絶対誤差を20%低く、ラベル予測タスクを10%低くすることがわかった。
論文 参考訳(メタデータ) (2020-10-30T17:59:13Z) - Line Graph Neural Networks for Link Prediction [71.00689542259052]
実世界の多くのアプリケーションにおいて古典的なグラフ解析問題であるグラフリンク予測タスクについて検討する。
このフォーマリズムでは、リンク予測問題をグラフ分類タスクに変換する。
本稿では,線グラフをグラフ理論に用いて,根本的に異なる新しい経路を求めることを提案する。
特に、線グラフの各ノードは、元のグラフのユニークなエッジに対応するため、元のグラフのリンク予測問題は、グラフ分類タスクではなく、対応する線グラフのノード分類問題として等価に解決できる。
論文 参考訳(メタデータ) (2020-10-20T05:54:31Z) - Inducing Alignment Structure with Gated Graph Attention Networks for
Sentence Matching [24.02847802702168]
本稿では,文マッチングのためのグラフベースの手法を提案する。
文ペアをグラフとして表現し、慎重に設計する。
次に,文マッチングのために構築したグラフを符号化するために,新しいゲートグラフアテンションネットワークを用いる。
論文 参考訳(メタデータ) (2020-10-15T11:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。