論文の概要: Standard-to-Dialect Transfer Trends Differ across Text and Speech: A Case Study on Intent and Topic Classification in German Dialects
- arxiv url: http://arxiv.org/abs/2510.07890v1
- Date: Thu, 09 Oct 2025 07:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.93661
- Title: Standard-to-Dialect Transfer Trends Differ across Text and Speech: A Case Study on Intent and Topic Classification in German Dialects
- Title(参考訳): テキスト・音声間の標準-距離移動傾向--ドイツ語方言におけるインテントとトピックの分類を事例として-
- Authors: Verena Blaschke, Miriam Winkler, Barbara Plank,
- Abstract要約: 我々は、テキストモデル、音声モデル、カスケードシステムという3つの設定で標準音声変換を比較した。
実験では,ドイツ語とドイツ語の方言を,文章や音声の意図,話題の分類といった文脈で焦点をあてた。
音声のみのセットアップが方言データに最適な結果をもたらすのに対して、テキストのみのセットアップは標準データに最適であることがわかった。
- 参考スコア(独自算出の注目度): 36.91800117379075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on cross-dialectal transfer from a standard to a non-standard dialect variety has typically focused on text data. However, dialects are primarily spoken, and non-standard spellings are known to cause issues in text processing. We compare standard-to-dialect transfer in three settings: text models, speech models, and cascaded systems where speech first gets automatically transcribed and then further processed by a text model. In our experiments, we focus on German and multiple German dialects in the context of written and spoken intent and topic classification. To that end, we release the first dialectal audio intent classification dataset. We find that the speech-only setup provides the best results on the dialect data while the text-only setup works best on the standard data. While the cascaded systems lag behind the text-only models for German, they perform relatively well on the dialectal data if the transcription system generates normalized, standard-like output.
- Abstract(参考訳): 標準から標準でない方言への横断的移動の研究は、典型的にはテキストデータに焦点を当てている。
しかし、方言は主に話し言葉であり、標準でない綴りはテキスト処理に問題を引き起こすことが知られている。
テキストモデル, 音声モデル, ケースケードシステムという3つの設定で, 音声が自動的に書き起こされ, さらにテキストモデルによって処理される。
実験では,ドイツ語とドイツ語の方言を,文章や音声の意図,話題の分類といった文脈で焦点をあてた。
そのために、最初の方言音声意図分類データセットをリリースする。
音声のみのセットアップが方言データに最適な結果をもたらすのに対して、テキストのみのセットアップは標準データに最適であることがわかった。
カスケードされたシステムは、ドイツ語のテキストのみのモデルより遅れているが、転写システムが正規化された標準的出力を生成する場合、方言データに対して比較的よく機能する。
関連論文リスト
- A Case Against Implicit Standards: Homophone Normalization in Machine Translation for Languages that use the Ge'ez Script [3.5149312379702127]
音声正規化(Homophone normalization)は、Amharic Natural Language Processingの文献に適用される事前処理のステップである。
トレーニングデータの代わりにモデル予測に正規化を適用した推論後介入を提案する。
我々の研究は、技術に精通した言語変化に関する広範な議論に寄与し、より多くの言語対応の介入を求めている。
論文 参考訳(メタデータ) (2025-07-20T22:35:08Z) - A Multi-Dialectal Dataset for German Dialect ASR and Dialect-to-Standard Speech Translation [19.535404632372042]
Betthupferlは、ドイツ南東部で話されている3つの方言群における4時間の読み上げ音声を含む評価データセットである。
我々は、方言と標準ドイツ語の両方の転写を提供し、それら間の言語的差異を分析する。
我々は、標準ドイツ語への音声翻訳における多言語ASRモデルのベンチマークを行い、その出力が方言と標準文字にどの程度似ているかの相違を見出した。
論文 参考訳(メタデータ) (2025-06-03T14:02:52Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - A Benchmark for Evaluating Machine Translation Metrics on Dialects
Without Standard Orthography [40.04973667048665]
非標準方言の指標がいかに堅牢かを評価する。
我々は、英語から2つのスイスドイツ語方言への自動機械翻訳のための、人間の翻訳と人間の判断のデータセットを収集する。
論文 参考訳(メタデータ) (2023-11-28T15:12:11Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。