Fugu-MT 論文翻訳(概要): Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities

論文の概要: Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities

arxiv url: http://arxiv.org/abs/2503.04721v2
Date: Wed, 04 Jun 2025 07:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 16:24:48.912288
Title: Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities
Title（参考訳）: Full-Duplex-Bench: ターンテイク能力に基づく全二重音声対話モデルの評価ベンチマーク
Authors: Guan-Ting Lin, Jiachen Lian, Tingle Li, Qirui Wang, Gopala Anumanchipalli, Alexander H. Liu, Hung-yi Lee,
Abstract要約: FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
参考スコア（独自算出の注目度）: 93.09944267871163
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Spoken dialogue modeling poses challenges beyond text-based language modeling, requiring real-time interaction, turn-taking, and backchanneling. While most Spoken Dialogue Models (SDMs) operate in half-duplex mode-processing one turn at a time - emerging full-duplex SDMs can listen and speak simultaneously, enabling more natural conversations. However, current evaluations remain limited, focusing mainly on turn-based metrics or coarse corpus-level analyses. To address this, we introduce Full-Duplex-Bench, a benchmark that systematically evaluates key interactive behaviors: pause handling, backchanneling, turn-taking, and interruption management. Our framework uses automatic metrics for consistent, reproducible assessment and provides a fair, fast evaluation setup. By releasing our benchmark and code, we aim to advance spoken dialogue modeling and foster the development of more natural and engaging SDMs.
Abstract（参考訳）: 音声対話モデリングは、テキストベースの言語モデリングを超えて、リアルタイムインタラクション、ターンテイク、バックチャネルを必要とする課題を提起する。多くの音声対話モデル(SDM)は、半二重のモード処理を一度に1回行うが、新しいフル二重のSDMは同時に聴き、話すことができ、より自然な会話を可能にしている。しかし、現在の評価は、ターンベースのメトリクスや粗いコーパスレベルの分析に重点を置いている。これを解決するために、停止処理、バックチャネル、ターンテイク、割り込み管理といった主要な対話的動作を体系的に評価するベンチマークであるFull-Duplex-Benchを紹介した。我々のフレームワークは、一貫した再現可能な評価のために自動メトリクスを使用し、公正で高速な評価設定を提供する。ベンチマークとコードを公開することにより、音声対話モデリングを推進し、より自然で魅力的なSDMの開発を促進することを目指している。

関連論文リスト

TELEVAL: A Dynamic Benchmark Designed for Spoken Language Models in Chinese Interactive Scenarios [47.08170350061827]
音声言語モデル(SLM)は近年急速に進歩し、性能評価のための多数のベンチマークが開発されている。既存のベンチマークのほとんどは、SLMが大規模言語モデル(LLM)と同等の複雑なタスクを実行できるかどうかを評価することに重点を置いている。リアルな中国語対話環境において,SLMの有効性を対話型エージェントとして評価するためのベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-24T03:23:55Z)
Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [79.0241611035794]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-06-01T07:51:45Z)
Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules [19.673388630963807]
課題をスパン条件付き世代として定式化し、各ターンを対話履歴に分解する。本稿では,タスク固有の対話を自動的に合成する引用中心のデータパイプラインを提案する。本稿では,2つのボトルネックプロジェクションをアタッチメントヘッドにアタッチする軽量なトレーニングベース手法QuAdaを提案する。
論文参考訳（メタデータ） (2025-05-30T07:06:11Z)
A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-12T04:22:18Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。 GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文参考訳（メタデータ） (2022-06-22T18:19:32Z)
Back to the Future: Bidirectional Information Decoupling Network for Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。 BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文参考訳（メタデータ） (2022-04-18T03:51:46Z)
DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文参考訳（メタデータ） (2021-06-02T12:23:18Z)
Neural Generation of Dialogue Response Timings [13.611050992168506]
音声応答オフセットの分布をシミュレートするニューラルモデルを提案する。モデルは、インクリメンタルな音声対話システムのパイプラインに統合されるように設計されている。人間の聴取者は、対話の文脈に基づいて、特定の応答タイミングをより自然なものとみなす。
論文参考訳（メタデータ） (2020-05-18T23:00:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。