論文の概要: BoSS: Beyond-Semantic Speech
- arxiv url: http://arxiv.org/abs/2507.17563v1
- Date: Wed, 23 Jul 2025 14:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.047091
- Title: BoSS: Beyond-Semantic Speech
- Title(参考訳): BoSS: セマンティック・スピーチを超えて
- Authors: Qing Wang, Zehan Li, Hang Lv, Hongjie Chen, Yaodong Song, Jian Kang, Jie Lian, Jie Li, Yongxiang Li, Zhongjiang He, Xuelong Li,
- Abstract要約: ボSS(Beyond-Semantic Speech)は、意味論を包含するが、意味論を超越する音声コミュニケーションにおける情報の集合である。
本稿では、認知関連理論と機械学習モデルを利用して、時間的・文脈的な音声力学を解析するBoSSの形式化フレームワークを提案する。
これらの知見は、よりリッチでコンテキストに合った人間と機械のコミュニケーションを可能にするため、BoSS研究を進める必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 43.96461266560891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human communication involves more than explicit semantics, with implicit signals and contextual cues playing a critical role in shaping meaning. However, modern speech technologies, such as Automatic Speech Recognition (ASR) and Text-to-Speech (TTS) often fail to capture these beyond-semantic dimensions. To better characterize and benchmark the progression of speech intelligence, we introduce Spoken Interaction System Capability Levels (L1-L5), a hierarchical framework illustrated the evolution of spoken dialogue systems from basic command recognition to human-like social interaction. To support these advanced capabilities, we propose Beyond-Semantic Speech (BoSS), which refers to the set of information in speech communication that encompasses but transcends explicit semantics. It conveys emotions, contexts, and modifies or extends meanings through multidimensional features such as affective cues, contextual dynamics, and implicit semantics, thereby enhancing the understanding of communicative intentions and scenarios. We present a formalized framework for BoSS, leveraging cognitive relevance theories and machine learning models to analyze temporal and contextual speech dynamics. We evaluate BoSS-related attributes across five different dimensions, reveals that current spoken language models (SLMs) are hard to fully interpret beyond-semantic signals. These findings highlight the need for advancing BoSS research to enable richer, more context-aware human-machine communication.
- Abstract(参考訳): 人間のコミュニケーションは明示的な意味論以上のもので、暗黙の信号と文脈の手がかりが意味を形成する上で重要な役割を果たす。
しかし、ASR(Automatic Speech Recognition)やTTS(Text-to-Speech)のような現代の音声技術は、これらの非意味な次元を捉えるのに失敗することが多い。
音声知能の発達をより正確に評価するために,音声対話システム能力レベル(L1-L5)を導入し,音声対話システムの基本的なコマンド認識から人間的な対話への進化を実証した。
これらの高度な機能をサポートするために,明示的意味論を超越した音声通信における情報集合を指すBeyond-Semantic Speech (BoSS)を提案する。
感情、文脈を伝達し、感情的な手がかり、文脈力学、暗黙的な意味論などの多次元的特徴を通じて意味を修飾または拡張し、コミュニケーションの意図やシナリオの理解を高める。
本稿では、認知関連理論と機械学習モデルを利用して、時間的・文脈的な音声力学を解析するBoSSの形式化フレームワークを提案する。
我々は,5次元にわたるBoSS関連特性を評価した結果,現在の音声言語モデル(SLM)は,セマンティック以外の信号を完全に解釈することが困難であることが判明した。
これらの知見は、よりリッチでコンテキストに合った人間と機械のコミュニケーションを可能にするため、BoSS研究を進める必要性を浮き彫りにしている。
関連論文リスト
- GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness [43.67571101152883]
本稿では,パラ言語的・話者的特徴認識を備えた新しい言語モデルGOAT-SLMを紹介する。
GOAT-SLMは、言語モデリングを音響的実現から切り離すデュアルモダリティヘッドアーキテクチャを採用している。
GOAT-SLMはセマンティックタスクと非セマンティックタスクの両方でバランスよく動作し、既存のオープンソースモデルよりも感情や方言の変化、年齢に敏感なインタラクションを処理できることを示す。
論文 参考訳(メタデータ) (2025-07-24T06:10:29Z) - MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark [42.58439306999647]
MMSUは、47の異なるタスクにまたがって、5000の厳密にキュレートされたオーディオクエスト・アンサートレットで構成されている。
我々は、音声学、韻律、修辞学、構文学、意味論、パラ言語学を含む言語理論のベンチマークを定めている。
MMSUは、音声言語理解の包括的評価のための新しい標準を確立する。
論文 参考訳(メタデータ) (2025-06-05T09:09:36Z) - Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - CMSBERT-CLR: Context-driven Modality Shifting BERT with Contrastive
Learning for linguistic, visual, acoustic Representations [0.7081604594416336]
言語・視覚・音響表現のためのコントラスト学習を用いたコンテキスト駆動型モダリティシフトBERT(CMSBERT-CLR)を提案する。
CMSBERT-CLRは、文脈全体の非言語的・言語的な情報を取り入れ、コントラスト学習を通じてより効果的にモダリティを整合させる。
実験では,本手法が最先端の成果をもたらすことを実証した。
論文 参考訳(メタデータ) (2022-08-21T08:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。