論文の概要: Enhancing Speech Instruction Understanding and Disambiguation in Robotics via Speech Prosody
- arxiv url: http://arxiv.org/abs/2506.02057v1
- Date: Sun, 01 Jun 2025 14:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.884395
- Title: Enhancing Speech Instruction Understanding and Disambiguation in Robotics via Speech Prosody
- Title(参考訳): 音声韻律によるロボットの音声指示理解と曖昧化の促進
- Authors: David Sasu, Kweku Andoh Yamoah, Benedict Quartey, Natalie Schluter,
- Abstract要約: 従来の方法では、音声をテキストに書き起こすには音声認識に頼っている。
本稿では,音声韻律を直接活用して指示意図を推測・解決する手法を提案する。
予測意図は、コンテキスト内学習を通じて大きな言語モデルに統合され、適切なタスク計画の曖昧化と選択を行う。
- 参考スコア(独自算出の注目度): 2.0624236247076397
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enabling robots to accurately interpret and execute spoken language instructions is essential for effective human-robot collaboration. Traditional methods rely on speech recognition to transcribe speech into text, often discarding crucial prosodic cues needed for disambiguating intent. We propose a novel approach that directly leverages speech prosody to infer and resolve instruction intent. Predicted intents are integrated into large language models via in-context learning to disambiguate and select appropriate task plans. Additionally, we present the first ambiguous speech dataset for robotics, designed to advance research in speech disambiguation. Our method achieves 95.79% accuracy in detecting referent intents within an utterance and determines the intended task plan of ambiguous instructions with 71.96% accuracy, demonstrating its potential to significantly improve human-robot communication.
- Abstract(参考訳): 音声言語命令を正確に解釈し実行するためのロボットの開発は、人間とロボットの効果的なコラボレーションに不可欠である。
伝統的な手法は、音声をテキストに書き起こすために音声認識に依存しており、しばしば意図を曖昧にするために必要となる重要な韻律的手がかりを捨てる。
本稿では,音声韻律を直接活用して指示意図を推測・解決する手法を提案する。
予測意図は、コンテキスト内学習を通じて大きな言語モデルに統合され、適切なタスク計画の曖昧化と選択を行う。
さらに,ロボット工学における最初のあいまいな音声データセットについて述べる。
提案手法は、発話中の参照意図を検出するための95.79%の精度を達成し、71.96%の精度で曖昧な指示を意図したタスク計画を決定する。
関連論文リスト
- InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。
InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。
提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文 参考訳(メタデータ) (2025-03-04T16:34:14Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Situated Instruction Following [87.37244711380411]
本稿では,実世界のコミュニケーションの非特異性とあいまいさを取り入れた位置指示について述べる。
位置指示の意味は、人間の過去の行動と将来の行動を通じて自然に展開される。
我々の実験は、現在最先端の身体的指示追従(EIF)モデルが、位置する人間の意図の全体的理解を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-07-15T19:32:30Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - GoalNet: Inferring Conjunctive Goal Predicates from Human Plan
Demonstrations for Robot Instruction Following [15.405156791794191]
私たちのゴールは、自然言語命令として指定されたタスクを実行するために、ロボットがアクションのシーケンスを学習できるようにすることです。
目的予測の文脈的およびタスク依存的推論のための新しいニューロシンボリックモデルであるGoalNetを導入する。
GoalNetは、最先端のルールベースのアプローチと比較してタスク完了率を大幅に改善した(51%)。
論文 参考訳(メタデータ) (2022-05-14T15:14:40Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。