論文の概要: From Signal to Turn: Interactional Friction in Modular Speech-to-Speech Pipelines
- arxiv url: http://arxiv.org/abs/2512.11724v2
- Date: Wed, 17 Dec 2025 12:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 15:03:26.92821
- Title: From Signal to Turn: Interactional Friction in Modular Speech-to-Speech Pipelines
- Title(参考訳): 信号から旋回へ:モジュール型音声-音声パイプラインにおける相互作用摩擦
- Authors: Tittaya Mairittha, Tanakon Sawanglok, Panuwit Raden, Jirapast Buntub, Thanapat Warunee, Napat Asawachaisuvikrom, Thanaphum Saiwongin,
- Abstract要約: 本稿では,S2S-RAGパイプラインにおいて発生する相互作用摩擦について検討する。
本研究では,(1)システム遅延がユーザの会話リズムの期待に反する時間的過ち,(2)パラ言語的手がかりの喪失がリテラル,不適切な応答につながる表現的フラッテニング,(3)アーキテクチャ的ゲーティングがユーザのエラーのリアルタイム修正を妨げている修復剛性,の3つのパターンを同定する。
- 参考スコア(独自算出の注目度): 0.11726720776908518
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While voice-based AI systems have achieved remarkable generative capabilities, their interactions often feel conversationally broken. This paper examines the interactional friction that emerges in modular Speech-to-Speech Retrieval-Augmented Generation (S2S-RAG) pipelines. By analyzing a representative production system, we move beyond simple latency metrics to identify three recurring patterns of conversational breakdown: (1) Temporal Misalignment, where system delays violate user expectations of conversational rhythm; (2) Expressive Flattening, where the loss of paralinguistic cues leads to literal, inappropriate responses; and (3) Repair Rigidity, where architectural gating prevents users from correcting errors in real-time. Through system-level analysis, we demonstrate that these friction points should not be understood as defects or failures, but as structural consequences of a modular design that prioritizes control over fluidity. We conclude that building natural spoken AI is an infrastructure design challenge, requiring a shift from optimizing isolated components to carefully choreographing the seams between them.
- Abstract(参考訳): 音声ベースのAIシステムは、優れた生成能力を達成したが、その相互作用は会話的に壊れていると感じられることが多い。
本稿では,S2S-RAGパイプラインにおいて発生する相互作用摩擦について検討する。
代表的な生産システムを分析することによって,単純な遅延指標を超越して,(1)システムの遅延が会話リズムのユーザの期待に反する時間的過ち,(2)パラ言語的手がかりの喪失がリテラル,不適切な応答につながる表現的フラッテニング,(3)アーキテクチャ的ゲーティングによってユーザがリアルタイムでエラーを修正できないような修復剛性,の3つのパターンを識別する。
システムレベルの解析を通して、これらの摩擦点が欠陥や失敗として理解されるべきではなく、流動性に対する制御を優先するモジュラー設計の構造的帰結として理解されるべきであることを示す。
自然な音声AIの構築は、インフラストラクチャ設計の課題であり、分離されたコンポーネントの最適化から、それらの間の縫合を慎重に振り分けるためのシフトが必要である、と私たちは結論付けています。
関連論文リスト
- Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems [82.70507055599093]
本稿では,Duplex SDS のための Streaming Chain-of-Thought (CoT) フレームワークを提案する。
ブロック毎に中間的ターゲットアライメントされたユーザ書き起こしとシステム応答を作成します。
実験により,本手法は既存の二重解法よりもコヒーレントで解釈可能な応答を生成することが示された。
論文 参考訳(メタデータ) (2025-10-02T14:33:05Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings [52.985061676464554]
短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。
我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。
以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
論文 参考訳(メタデータ) (2025-08-18T11:32:13Z) - FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems [8.43958948419218]
音声対話システムから制御を分離するフレキシブルフルプレイ制御モジュールを開発した。
会話における人間の情報フィルタリング機構に触発されて、明示的なアイドル状態を導入する。
偽の割り込み率を24.9%削減し、統合されたフルプレイ対話システムに比べて応答精度を7.6%向上させる。
論文 参考訳(メタデータ) (2025-02-19T06:51:34Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Dynamic Behaviour of Connectionist Speech Recognition with Strong
Latency Constraints [6.5458610824731664]
本稿では,強い遅延制約を持つ音声音声認識におけるコネクショナリスト手法の使用について述べる。
この制約は、音声信号から合成顔の唇の動きをリアルタイムで導き出すタスクによって課される。
論文 参考訳(メタデータ) (2024-01-12T14:10:28Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。