論文の概要: ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models
- arxiv url: http://arxiv.org/abs/2604.10065v1
- Date: Sat, 11 Apr 2026 07:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.821481
- Title: ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models
- Title(参考訳): ASPIRIN:全二重言語モデルにおける対話性最適化強化学習のための行動空間投影
- Authors: Chi-Yuan Hsiao, Ke-Han Lu, Yu-Kuan Fu, Guan-Ting Lin, Hsiao-Tsung Hung, Hung-yi Lee,
- Abstract要約: 経験的な評価は、ASPIRinがターンテイキング、バックチャネル、一時停止処理をまたいで対話性を最適化していることを示している。
ASPIRin degrade turn to say when when when to fall when. ASPIRin degrade turn to say when when to say。
- 参考スコア(独自算出の注目度): 49.18708573170585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end full-duplex Speech Language Models (SLMs) require precise turn-taking for natural interaction. However, optimizing temporal dynamics via standard raw-token reinforcement learning (RL) degrades semantic quality, causing severe generative collapse and repetition. We propose ASPIRin, an interactivity-optimized RL framework that explicitly decouples when to speak from what to say. Using Action Space Projection, ASPIRin maps the text vocabulary into a coarse-grained binary state (active speech vs. inactive silence). By applying Group Relative Policy Optimization (GRPO) with rule-based rewards, it balances user interruption and response latency. Empirical evaluations show ASPIRin optimizes interactivity across turn-taking, backchanneling, and pause handling. Crucially, isolating timing from token selection preserves semantic coherence and reduces the portion of duplicate n-grams by over 50% compared to standard GRPO, effectively eliminating degenerative repetition.
- Abstract(参考訳): エンドツーエンドのフル二重言語モデル(SLM)は、自然な相互作用のために正確なターンテイクを必要とする。
しかし,RLによる時間的ダイナミクスの最適化は意味的品質を低下させ,生成的崩壊と反復を引き起こす。
本稿では,対話性に最適化されたRLフレームワークであるASPIRinを提案する。
Action Space Projectionを使用して、ASPIRinはテキスト語彙を粗い粒度のバイナリ状態(アクティブスピーチ対非アクティブサイレント)にマッピングする。
Group Relative Policy Optimization(GRPO)にルールベースの報酬を適用することで、ユーザの中断とレスポンスレイテンシのバランスをとることができる。
経験的な評価は、ASPIRinがターンテイキング、バックチャネル、一時停止処理をまたいで対話性を最適化していることを示している。
重要なことに、トークン選択からのタイミングの分離は意味的コヒーレンスを保ち、標準的なGRPOと比較してn-gramの重複部分の50%以上削減し、縮退反復を効果的に排除する。
関連論文リスト
- GDPO-Listener: Expressive Interactive Head Generation via Auto-Regressive Flow Matching and Group reward-Decoupled Policy Optimization [5.5806589487812746]
GDPO-Listenerは高度に表現力のある発話・聴取動作生成を実現する新しいフレームワークである。
本稿では,安定した教師付き学習を可能にする自動回帰フローマッチングアーキテクチャを提案する。
異なるFLAMEパラメータ群間で報酬正規化を分離することにより、GDPOは高分散表現世代を明示的にインセンティブ化する。
論文 参考訳(メタデータ) (2026-03-26T04:36:27Z) - TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules [19.673388630963807]
課題をスパン条件付き世代として定式化し、各ターンを対話履歴に分解する。
本稿では,タスク固有の対話を自動的に合成する引用中心のデータパイプラインを提案する。
本稿では,2つのボトルネックプロジェクションをアタッチメントヘッドにアタッチする軽量なトレーニングベース手法QuAdaを提案する。
論文 参考訳(メタデータ) (2025-05-30T07:06:11Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF [14.2594830589926]
オンラインヘイトスピーチに対する反応として定義されているCounterspeechは、非センセーショナルソリューションとしてますます利用されている。
ヘイトフルステートメントにおける社会的バイアスの背景にある実践的意味をモデル化し,反音声生成を促進させる新しいフレームワークであるCoARLを紹介した。
CoARLの最初の2つのフェーズは、連続的なマルチインストラクションチューニング、インテント、反応、攻撃的ステートメントの害を理解するためのモデルを教えること、そしてインテント条件付き逆音声を生成するためのタスク固有の低ランクアダプタ重みを学習することである。
論文 参考訳(メタデータ) (2024-03-15T08:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。