論文の概要: The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era
- arxiv url: http://arxiv.org/abs/2601.05564v1
- Date: Fri, 09 Jan 2026 06:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.867065
- Title: The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era
- Title(参考訳): ICASSP 2026 Humdial Challenge: LLM時代の人間のような音声対話システムのベンチマーク
- Authors: Zhixian Zhao, Shuiyuan Wang, Guojian Li, Hongfei Xue, Chengyou Wang, Shuai Wang, Longshuai Xiao, Zihan Zhang, Hui Bu, Xin Xu, Xinsheng Wang, Hexin Liu, Eng Siong Chng, Hung-yi Lee, Haizhou Li, Lei Xie,
- Abstract要約: 我々はICASSP 2026で最初のヒューマンライクな音声対話システムチャレンジ(HumDial)を開催する。
本稿では,データセット,トラック構成,最終結果について概説する。
- 参考スコア(独自算出の注目度): 95.35748535806744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by the rapid advancement of Large Language Models (LLMs), particularly Audio-LLMs and Omni-models, spoken dialogue systems have evolved significantly, progressively narrowing the gap between human-machine and human-human interactions. Achieving truly ``human-like'' communication necessitates a dual capability: emotional intelligence to perceive and resonate with users' emotional states, and robust interaction mechanisms to navigate the dynamic, natural flow of conversation, such as real-time turn-taking. Therefore, we launched the first Human-like Spoken Dialogue Systems Challenge (HumDial) at ICASSP 2026 to benchmark these dual capabilities. Anchored by a sizable dataset derived from authentic human conversations, this initiative establishes a fair evaluation platform across two tracks: (1) Emotional Intelligence, targeting long-term emotion understanding and empathetic generation; and (2) Full-Duplex Interaction, systematically evaluating real-time decision-making under `` listening-while-speaking'' conditions. This paper summarizes the dataset, track configurations, and the final results.
- Abstract(参考訳): 大言語モデル(LLM)、特にオーディオ-LLMとオムニモデル(Omni-model)の急速な進歩により、音声対話システムは大幅に進化し、人間と機械の相互作用と人間の相互作用のギャップを徐々に狭めている。
ユーザーの感情状態を理解し、共鳴する感情知性、そしてリアルタイムなターンテイクのような会話の動的で自然な流れをナビゲートする堅牢な相互作用メカニズムである。
そこで我々はICASSP 2026で最初のHuman-like Spoken Dialogue Systems Challenge (HumDial)をローンチし、これらのデュアル機能をベンチマークした。
このイニシアチブは、人間同士の会話から得られた膨大なデータセットによって構成され、(1)長期的な感情理解と共感をターゲットとした感情知能、(2)「耳を傾ける」条件下でのリアルタイム意思決定を体系的に評価するフル・ダブル・インタラクションの2つのトラックにまたがる公正な評価プラットフォームを確立する。
本稿では,データセット,トラック構成,最終結果について概説する。
関連論文リスト
- A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Are You Listening to Me? Fine-Tuning Chatbots for Empathetic Dialogue [0.5849783371898033]
感情的にリッチなインタラクションを生成するタスクにおいて,Large Language Models (LLM) がどのように反応するかを検討する。
本研究では,感情分析(VADER)と専門家評価の両方を用いて,対話の感情的進行を分析した。
論文 参考訳(メタデータ) (2025-07-03T11:32:41Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - CAPE: A Chinese Dataset for Appraisal-based Emotional Generation using Large Language Models [30.40159858361768]
認知評価理論に基づく感情コーパスという中国のデータセットであるCAPEを作成するための2段階の自動データ生成フレームワークを提案する。
このコーパスは、多様な個人的・状況的要因を考慮し、文脈的に適切な感情的反応を伴う対話を生成する。
我々の研究は、会話エージェントにおける感情表現を前進させる可能性を示し、よりニュアンスで有意義な人間とコンピュータの相互作用の道を開いた。
論文 参考訳(メタデータ) (2024-10-18T03:33:18Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。