論文の概要: Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception
- arxiv url: http://arxiv.org/abs/2601.09413v1
- Date: Wed, 14 Jan 2026 12:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.388022
- Title: Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception
- Title(参考訳): 音声ハンド:Omni知覚による音声認識と音声応答に対する自己反射音声エージェントアプローチ
- Authors: Zhen Wan, Chao-Han Huck Yang, Jinchuan Tian, Hanrong Ye, Ankita Pasad, Szu-wei Fu, Arushi Goel, Ryo Hachiuma, Shizhe Diao, Kunal Dhawan, Sreyan Ghosh, Yusuke Hirota, Zhehuai Chen, Rafael Valle, Ehsan Hosseini Asl, Chenhui Chu, Shinji Watanabe, Yu-Chiang Frank Wang, Boris Ginsburg,
- Abstract要約: 我々は,外部の音声知覚をいつ信頼するか,いつ外部の音声知覚を相談するかを知るという,一貫したスキルを学習する音声認識フレームワークを導入する。
音声認識と外部の音声理解タスクの両方でオムニモデルを鼻で微調整することは、しばしば性能を低下させる。
これを解決するために、我々のフレームワークであるSpeech-Handsは、問題を明示的な自己回帰決定として再考する。この学習可能なプリミティブは、モデルが欠陥のある外部候補によって脱線されるのを防ぐのに有効である。
- 参考スコア(独自算出の注目度): 142.4692205981783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a voice-agentic framework that learns one critical omni-understanding skill: knowing when to trust itself versus when to consult external audio perception. Our work is motivated by a crucial yet counterintuitive finding: naively fine-tuning an omni-model on both speech recognition and external sound understanding tasks often degrades performance, as the model can be easily misled by noisy hypotheses. To address this, our framework, Speech-Hands, recasts the problem as an explicit self-reflection decision. This learnable reflection primitive proves effective in preventing the model from being derailed by flawed external candidates. We show that this agentic action mechanism generalizes naturally from speech recognition to complex, multiple-choice audio reasoning. Across the OpenASR leaderboard, Speech-Hands consistently outperforms strong baselines by 12.1% WER on seven benchmarks. The model also achieves 77.37% accuracy and high F1 on audio QA decisions, showing robust generalization and reliability across diverse audio question answering datasets. By unifying perception and decision-making, our work offers a practical path toward more reliable and resilient audio intelligence.
- Abstract(参考訳): 我々は,外部の音声知覚をいつ信頼するか,いつ外部の音声知覚を相談するかを知るという,一貫したスキルを学習する音声認識フレームワークを導入する。
音声認識と外部音響理解タスクの両方でオムニモデルを鼻で微調整することは、ノイズのある仮説によって容易に誤認できるため、しばしば性能を低下させる。
これを解決するために、我々のフレームワークであるSpeech-Handsは、問題を明示的な自己回帰決定として再放送する。
この学習可能なリフレクションプリミティブは、モデルが欠陥のある外部候補によって脱線されるのを防ぐのに有効である。
このエージェント動作機構は,音声認識から複雑な複数選択音声推論へ自然に一般化することを示す。
OpenASRのリーダーボード全体では、Speech-Handsは7つのベンチマークで12.1% WERの強いベースラインを上回っている。
このモデルは、オーディオQA決定において77.37%の精度と高いF1を達成し、多様な音声質問応答データセットにまたがる堅牢な一般化と信頼性を示している。
認識と意思決定を統一することにより、我々の研究はより信頼性が高く弾力性のあるオーディオインテリジェンスへの実践的な道筋を提供する。
関連論文リスト
- SpeakerSleuth: Evaluating Large Audio-Language Models as Judges for Multi-turn Speaker Consistency [12.420484491347073]
LALMがマルチターン対話における話者の一貫性を確実に判断できるかどうかを評価するベンチマークである SpeakerSleuth を提案する。
合成音声と実音声を対象とする4つの多種多様なデータセットを対象とした1,818の人間検証評価インスタンスを構築した。
モデルは音響的不整合を確実に検出するのに苦労している。
論文 参考訳(メタデータ) (2026-01-07T15:45:41Z) - Step-Audio-R1 Technical Report [70.37077572409319]
本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。
私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
論文 参考訳(メタデータ) (2025-11-19T20:12:50Z) - Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models [22.710371114925763]
音声基礎モデル(SFM)は、中間テキスト表現をバイパスし、生音声から音声言語の直接処理を可能にする。
この能力により、SFMは入力音声信号に埋め込まれた豊富なパラ言語的バリエーションに露出し、潜在的に応答することができる。
本研究では,音質の合成を特徴とする新たな並列データセットを提案する。
論文 参考訳(メタデータ) (2025-10-29T14:44:44Z) - DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。
マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-10-20T15:35:55Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。