論文の概要: Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean
- arxiv url: http://arxiv.org/abs/2604.19477v1
- Date: Tue, 21 Apr 2026 13:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.796866
- Title: Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean
- Title(参考訳): 韓国におけるロバストピッチアクセント分類のためのピッチ輪郭の深い教師付きコントラスト学習
- Authors: Hyunjung Joo, GyeongTaek Lee,
- Abstract要約: そこで我々は,きめ細かなピッチアクセントパターンを頑健に分類する,深層教師付きコントラスト学習フレームワークであるDual-Globを提案する。
本研究は,データ駆動手法を用いたAMに基づく国際音韻学を支援する。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intonational structure of Seoul Korean has been defined with discrete tonal categories within the Autosegmental-Metrical model of intonational phonology. However, it is challenging to map continuous $F_0$ contours to these invariant categories due to variable $F_0$ realizations in real-world speech. Our paper proposes Dual-Glob, a deep supervised contrastive learning framework to robustly classify fine-grained pitch accent patterns in Seoul Korean. Unlike conventional local predictive models, our approach captures holistic $F_0$ contour shapes by enforcing structural consistency between clean and augmented views in a shared latent space. To this aim, we introduce the first large-scale benchmark dataset, consisting of manually annotated 10,093 Accentual Phrases in Seoul Korean. Experimental results show that our Dual-Glob significantly outperforms strong baseline models with state-of-the-art accuracy (77.75%) and F1-score (51.54%). Therefore, our work supports AM-based intonational phonology using data-driven methodology, showing that deep contrastive learning effectively captures holistic structural features of continuous $F_0$ contours.
- Abstract(参考訳): 韓国の非国家的構造は、非国家的音韻論の自己分類的・計量的モデルの中で、個別の音節分類で定義されている。
しかし、実世界の音声における可変$F_0$実現のため、連続$F_0$輪郭をこれらの不変カテゴリにマッピングすることは困難である。
本稿では,韓国のピッチアクセントパターンをきめ細粒度に分類する深層教師付きコントラスト学習フレームワークであるDual-Globを提案する。
従来の局所的予測モデルとは異なり,提案手法は,共有潜在空間におけるクリーンビューと拡張ビューの間の構造的一貫性を強制することにより,全体論的に$F_0$の輪郭形状を捕捉する。
そこで本研究では,韓国のアセンチュアル・プラース10,093を手作業でアノテートした,最初の大規模ベンチマークデータセットを紹介する。
実験の結果,Dual-Globは最先端精度77.75%,F1スコア51.54%の強いベースラインモデルよりも優れていた。
そこで,本研究は,データ駆動手法を用いてAMベースの国際音韻学をサポートし,コントラスト学習が連続した$F_0$輪郭の構造的特徴を効果的に捉えていることを示す。
関連論文リスト
- SignDPO: Multi-level Direct Preference Optimisation for Skeleton-based Gloss-free Sign Language Translation [52.752934028506274]
我々は,新しい多レベル直接参照最適化フレームワークSignDPOを提案する。
SignDPOは、最先端のGloss-freeメソッドよりも一貫して優れていることを示す。
以上の結果から,多レベル選好アライメントは,高エントロピーな骨格軌道と個別言語意味論のギャップを埋める強力なパラダイムであることが示唆された。
論文 参考訳(メタデータ) (2026-04-20T09:59:18Z) - Gram-Anchored Prompt Learning for Vision-Language Models via Second-Order Statistics [6.327904555091201]
我々は、一階情報のみに頼ることは、堅牢な適応には不十分であると主張している。
第二次統計量を用いた視覚言語モデルのためのtextbfGram-Anchored Prompt Learning (GAPL) を提案する。
論文 参考訳(メタデータ) (2026-04-05T06:02:07Z) - Orchestrating Heterogeneous Experts: A Scalable MoE Framework with Anisotropy-Preserving Fusion [9.664206410314955]
国境を越えたeコマースは、極端な言語的多様性ときめ細かい意味的ニュアンスという2つの課題に直面している。
既存のアプローチは通常、単一のモノリシックな大規模言語モデル(LLM)のスケールアップに依存します。
本稿では,異なるオープンソース LLM の相補性を生かした,スケーラブルな粗粒混合処理(Mixture-of-Experts:MoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:13:37Z) - KORMo: Korean Open Reasoning Model for Everyone [24.596298830917394]
本研究は, 英語以外の言語, 特に韓国語を対象に, 主に合成データに基づいて訓練された, 完全にオープンなバイリンガル大言語モデル(LLM)を構築するための, 初めての大規模研究である。
本研究は, 言語的包括的・多種多様な指導スタイルを念頭に置いた合成データが, 大規模事前学習における不安定性や劣化を生じさせないことを示した。
実験の結果,(1) 合成データはモデル崩壊を伴わずに長期訓練を確実に維持でき,(2) バイリンガル指導は韓国語でほぼネイティブな推論と談話のコヒーレンスを可能にすることがわかった。
論文 参考訳(メタデータ) (2025-10-10T14:31:25Z) - Dual Guidance Semi-Supervised Action Detection [71.45023660211145]
空間的時間的行動局在化のための半教師付きアプローチを提案する。
より優れた擬似有界ボックスを選択するための二重誘導ネットワークを導入する。
本フレームワークは,拡張画像に基づく半教師付きベースラインよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2025-07-28T18:08:36Z) - RAGAT-Mind: A Multi-Granular Modeling Approach for Rumor Detection Based on MindSpore [0.0]
RAGAT-Mindは、MindSporeのディープラーニングフレームワーク上に構築された、中国の噂検出のためのマルチグラニュラーモデリングアプローチである。
このモデルは、局所意味抽出のためのTextCNN、シーケンシャルな文脈学習のための双方向GRU、グローバルな依存性集中のためのマルチヘッド自己認識、単語共起グラフの構造表現のための双方向グラフ畳み込みネットワーク(BiGCN)を統合している。
論文 参考訳(メタデータ) (2025-04-24T14:03:53Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Audio Contrastive-based Fine-tuning: Decoupling Representation Learning and Classification [26.82307246813389]
本稿では、下流評価から表現の洗練を分離する2段階のアンタングル化フレームワークを提案する。
まず、モデルの埋め込み空間の幾何学的構造を明示的に改善するために「コントラストチューニング」ステージを用いる。
次に、幾何学的観点からこれらの洗練された表現の質を評価するために、双対プローブ評価プロトコルを導入する。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。