論文の概要: Syn-TurnTurk: A Synthetic Dataset for Turn-Taking Prediction in Turkish Dialogues
- arxiv url: http://arxiv.org/abs/2604.13620v1
- Date: Wed, 15 Apr 2026 08:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.454262
- Title: Syn-TurnTurk: A Synthetic Dataset for Turn-Taking Prediction in Turkish Dialogues
- Title(参考訳): Syn-TurnTurk:トルコ語対話におけるターンタイキング予測のための合成データセット
- Authors: Ahmet Tuğrul Bayrak, Mustafa Sertaç Türkel, Fatma Nur Korkmaz,
- Abstract要約: 本稿では,様々なQwen Large Language Models(LLM)を用いた合成トルコ語対話データセットであるSyn-TurnTurkを紹介する。
従来型およびディープラーニングアーキテクチャを用いたデータセットの評価を行った。
その結果,高度モデル,特にBI-LSTM と Ensemble (LR+RF) は高い精度 (0.839) とAUCスコア (0.910) を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing natural dialogue timing is a significant challenge for voice-based chatbots. Most current systems usually rely on simple silence detection, which often fails because human speech patterns involve irregular pauses. This causes bots to interrupt users, breaking the conversational flow. This problem is even more severe for languages like Turkish, which lack high-quality datasets for turn-taking prediction. This paper introduces Syn-TurnTurk, a synthetic Turkish dialogue dataset generated using various Qwen Large Language Models (LLMs) to mirror real-life verbal exchanges, including overlaps and strategic silences. We evaluated the dataset using several traditional and deep learning architectures. The results show that advanced models, particularly BI-LSTM and Ensemble (LR+RF) methods, achieve high accuracy (0.839) and AUC scores (0.910). These findings demonstrate that our synthetic dataset can have a positive affect for models understand linguistic cues, allowing for more natural human-machine interaction in Turkish.
- Abstract(参考訳): 自然な対話のタイミングを管理することは、音声ベースのチャットボットにとって重要な課題である。
現在のほとんどのシステムは、単純なサイレント検出に頼っているが、人間の発話パターンが不規則な一時停止を伴っているため、しばしば失敗する。
これによりボットはユーザーを中断させ、会話の流れを壊す。
この問題は、ターンテイク予測のための高品質なデータセットが欠けているトルコ語のような言語にとっては、さらに深刻な問題だ。
本稿では,様々なQwen Large Language Models(LLM)を用いて生成した合成トルコ語対話データセットであるSyn-TurnTurkを紹介し,重複や戦略的沈黙を含む実生活の言語交換を反映する。
従来型およびディープラーニングアーキテクチャを用いたデータセットの評価を行った。
その結果,高度なモデル,特にBI-LSTM と Ensemble (LR+RF) は高い精度 (0.839) とAUCスコア (0.910) を達成できた。
これらの結果は、我々の合成データセットが言語的手がかりを理解するモデルに肯定的な影響を与え、トルコ語におけるより自然な人間と機械の相互作用を可能にすることを示している。
関連論文リスト
- ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection [2.5962590697722447]
アラビア語スプーフ音声データセットを初めて紹介する。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T18:11:20Z) - Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications [0.0]
本稿では,トルコのRAGアプリケーションに特化して設計された幻覚検出モデルの最初のスイートであるTurk-LettuceDetectを紹介する。
これらのモデルは、質問応答、データ・トゥ・テキスト生成、要約タスクを含む17,790のインスタンスを含むRAGTruthベンチマークデータセットの機械翻訳バージョンでトレーニングされた。
実験の結果,ModernBERTをベースとしたモデルでは,F1スコアの0.7266が完全なテストセットで達成され,特に構造化タスクにおいて高い性能が得られた。
論文 参考訳(メタデータ) (2025-09-22T12:14:11Z) - X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - SYNDICOM: Improving Conversational Commonsense with Error-Injection and
Natural Language Feedback [3.642278451851518]
対話応答生成におけるコモンセンス改善手法であるSynDICOMを紹介する。
最初のコンポーネントは知識グラフから生成され、自然言語に合成された常識対話からなるデータセットである。
2つ目のコントリビューションは、2段階の手順である: 自然言語フィードバック(NLF)を予測するためのモデルをトレーニングし、予測されたNLFに条件付けされた応答生成モデルをトレーニングする。
論文 参考訳(メタデータ) (2023-09-18T15:08:48Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文 参考訳(メタデータ) (2021-03-18T15:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。