論文の概要: DEBATE: A Dataset for Disentangling Textual Ambiguity in Mandarin Through Speech
- arxiv url: http://arxiv.org/abs/2506.07502v1
- Date: Mon, 09 Jun 2025 07:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.849031
- Title: DEBATE: A Dataset for Disentangling Textual Ambiguity in Mandarin Through Speech
- Title(参考訳): DEBATE: 音声によるマンダリンのテクストのあいまいさを識別するデータセット
- Authors: Haotian Guo, Jing Han, Yongfeng Tu, Shihao Gao, Shengfan Shen, Wulong Xiang, Weihao Gan, Zixing Zhang,
- Abstract要約: 本稿では,中国独自の音声テキストデータセットであるDEBATEについて述べる。
10人の母語話者によって記録された1,001の丁寧に選択されたあいまいな発話を含んでいる。
我々は、機械と人間の発話意図の理解の間には、明確で大きなパフォーマンスギャップがあることを示す、最先端の3つの大規模音声および音声言語モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 11.79037119988533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensive research on textual and visual disambiguation, disambiguation through speech (DTS) remains underexplored. This is largely due to the lack of high-quality datasets that pair spoken sentences with richly ambiguous text. To address this gap, we present DEBATE, a unique public Chinese speech-text dataset designed to study how speech cues and patterns-pronunciation, pause, stress and intonation-can help resolve textual ambiguity and reveal a speaker's true intent. DEBATE contains 1,001 carefully selected ambiguous utterances, each recorded by 10 native speakers, capturing diverse linguistic ambiguities and their disambiguation through speech. We detail the data collection pipeline and provide rigorous quality analysis. Additionally, we benchmark three state-of-the-art large speech and audio-language models, illustrating clear and huge performance gaps between machine and human understanding of spoken intent. DEBATE represents the first effort of its kind and offers a foundation for building similar DTS datasets across languages and cultures. The dataset and associated code are available at: https://github.com/SmileHnu/DEBATE.
- Abstract(参考訳): テキストおよび視覚的曖昧さに関する広範な研究にもかかわらず、音声による曖昧さ (DTS) は未発見のままである。
これは、音声文とリッチであいまいなテキストをペアリングする高品質なデータセットが欠如していることが主な原因である。
このギャップに対処するために、DeBATEは、音声の手がかりやパターンの発音、一時停止、ストレス、イントネーションなどがどのようにしてテキストの曖昧さを解消し、話者の真意を明らかにするかを研究するために設計された、ユニークな中国語の音声テキストデータセットである。
DEBATEには、1,001の慎重に選択されたあいまいな発話が含まれており、それぞれが10人の母語話者によって記録され、多様な言語的曖昧さと、そのあいまいさを音声を通して捉えている。
データ収集パイプラインの詳細と厳密な品質分析を提供します。
さらに,現在最先端の3つの大規模音声・音声言語モデルをベンチマークし,機械と人間の発話意図の理解との間にある明らかかつ大きなパフォーマンスギャップを指摘した。
DEBATEはその種の最初の取り組みであり、言語や文化にまたがる同様のDTSデータセットを構築するための基盤を提供する。
データセットと関連するコードは、https://github.com/SmileHnu/DEBATE.comで公開されている。
関連論文リスト
- SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description [19.064845530513285]
本稿では,表現的かつ鮮明な人間の言語記述で単語中の音声クリップに注釈を付ける,解釈のための自動音声アノテーションシステムを提案する。
本システムでは,自然言語記述の調整による音声スタイルの深い理解を提供する。
約2000時間の音声データを含み、200万以上の音声クリップを含む、高度に記述的な自然言語スタイルのプロンプトによって区別されている。
論文 参考訳(メタデータ) (2024-08-24T15:36:08Z) - DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。