論文の概要: Linear Semantic Segmentation for Low-Resource Spoken Dialects
- arxiv url: http://arxiv.org/abs/2605.06276v1
- Date: Thu, 07 May 2026 13:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.860461
- Title: Linear Semantic Segmentation for Low-Resource Spoken Dialects
- Title(参考訳): 低音源音声に対する線形セマンティックセマンティックセグメンテーション
- Authors: Kirill Chirkunov, Younes Samih, Abed Alhakim Freihat, Hanan Aldarmaki,
- Abstract要約: 対話アラビア語のセマンティックセマンティックセグメンテーションのための新しいマルチジャンルベンチマークを導入する。
MSAニュースジャンルでよく機能するセグメンテーションモデルは方言転写音声で劣化することを示す。
談話の不連続性に対する局所的セグメンテーション・コヒーレンスとロバスト性を目標としたセグメンテーション・モデルを提案する。
- 参考スコア(独自算出の注目度): 6.6238001631960275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation is a core component of discourse analysis, yet existing models are primarily developed and evaluated on high-resource written text, limiting their effectiveness on low-resource spoken varieties. In particular, dialectal Arabic exhibits informal syntax, code-switching, and weakly marked discourse structure that challenge standard segmentation approaches. In this paper, we introduce a new multi-genre benchmark (more than 1000 samples) for semantic segmentation in conversational Arabic, focusing on dialectal discourse. The benchmark covers transcribed casual telephone conversations, code-switched podcasts, broadcast news, and expressive dialogue from novels, and was annotated and validated by native Arabic annotators. Using this benchmark, we show that segmentation models performing well on MSA news genres degrade on dialectal transcribed speech. We further propose a segmentation model that targets local semantic coherence and robustness to discourse discontinuities, consistently outperforming strong baselines on dialectal non-news genres. The benchmark and approach generalize to other low-resource spoken languages.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation)は談話分析のコアコンポーネントであるが、既存のモデルは、主に高解像度のテキストで開発・評価され、低解像度の音声多様体に対する効果が制限されている。
特に、方言アラビア語は、標準セグメンテーションアプローチに挑戦する非公式な構文、コードスイッチング、弱くマークされた談話構造を示す。
本稿では,対話型アラビア語における意味的セグメンテーションのための多言語ベンチマーク(1000以上のサンプル)を,方言の談話に焦点をあてて紹介する。
このベンチマークは、書き起こされたカジュアルな電話会話、コードスイッチされたポッドキャスト、放送ニュース、小説からの表現的な対話をカバーし、アラビア語のアノテーターによって注釈され、検証された。
このベンチマークを用いて、MSAニュースジャンルでよく機能するセグメンテーションモデルが方言転写音声で劣化していることを示す。
さらに,局所的な意味的コヒーレンスとロバスト性を目標とし,言論の不連続性を目標としたセグメンテーションモデルを提案する。
ベンチマークとアプローチは、他の低リソースの音声言語に一般化される。
関連論文リスト
- MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:39:01Z) - Arab Voices: Mapping Standard and Dialectal Arabic Speech Technology [25.96097632833693]
方言アラビア語(DA)音声データは、ドメインカバレッジ、方言ラベリングの実践、記録条件など多岐にわたる。
我々は,広く使用されているDAコーパスの訓練分割に対して,音質の客観的なプロキシとともに「言語弁証性」の計算分析を行う。
音響条件と、データセット間の方言信号の強度と一貫性の両方において、相当な不均一性を見出した。
論文 参考訳(メタデータ) (2026-01-19T19:02:40Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - The Arabic Generality Score: Another Dimension of Modeling Arabic Dialectness [10.837144343838945]
アラビア語の方言は様々な連続体を形成するが、NLPモデルはそれらを個別のカテゴリーとして扱うことが多い。
アラビア・ジェネリティスコア(AGS)は、単語が方言でどれだけ広く使われているかを定量化するものである。
論文 参考訳(メタデータ) (2025-08-24T13:06:00Z) - Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings [2.615008111842321]
セマンティック音声エンコーダを用いたトピックセグメンテーションのためのエンドツーエンドスキームを提案する。
そこで本研究では,1000時間の公開録音を特徴とするデータセットを用いて,音声ニューストピックセグメンテーションのための新しいベンチマークを提案する。
この結果から,従来のパイプライン方式では英語のP_k$スコアが0.2431であるのに対して,エンドツーエンドモデルは競争力のあるP_k$スコアが0.2564であることがわかった。
論文 参考訳(メタデータ) (2024-09-10T05:24:36Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。