論文の概要: Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind
- arxiv url: http://arxiv.org/abs/2409.10849v2
- Date: Mon, 06 Oct 2025 16:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.315914
- Title: Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind
- Title(参考訳): 心の理論を用いた人間-ロボット共同作業における実践的体操指導
- Authors: Lance Ying, Xinyi Li, Shivam Aarya, Yizirui Fang, Yifan Yin, Jason Xinyu Liu, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu,
- Abstract要約: 認知にインスパイアされたニューロシンボリックモデルであるスポークインストラクション(Spken Instruction following through Theory of Mind, SIFToM)を提案する。
SIFToMはモデルに基づくメンタル推論を備えたビジョンランゲージモデルを使用して、多様な音声条件下でロボットが現実的に人間の指示に従うことを可能にする。
その結果、SIFToMは、軽量ベースVLM(Gemini 2.5 Flash)の性能を大幅に向上し、最先端のVLM(Gemini 2.5 Pro)より優れ、タスク後の音声指示に挑戦する人間レベルの精度に近づいていることがわかった。
- 参考スコア(独自算出の注目度): 51.45478233267092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken language instructions are ubiquitous in agent collaboration. However, in real-world human-robot collaboration, following human spoken instructions can be challenging due to various speaker and environmental factors, such as background noise or mispronunciation. When faced with noisy auditory inputs, humans can leverage the collaborative context in the embodied environment to interpret noisy spoken instructions and take pragmatic assistive actions. In this paper, we present a cognitively inspired neurosymbolic model, Spoken Instruction Following through Theory of Mind (SIFToM), which leverages a Vision-Language Model with model-based mental inference to enable robots to pragmatically follow human instructions under diverse speech conditions. We test SIFToM in both simulated environments (VirtualHome) and real-world human-robot collaborative settings with human evaluations. Results show that SIFToM can significantly improve the performance of a lightweight base VLM (Gemini 2.5 Flash), outperforming state-of-the-art VLMs (Gemini 2.5 Pro) and approaching human-level accuracy on challenging spoken instruction following tasks.
- Abstract(参考訳): 音声言語命令はエージェントの共同作業においてユビキタスである。
しかし、現実の人間ロボットのコラボレーションでは、背景雑音や発音ミスなど、様々な話者や環境要因のために、人間の音声による指示に従うことは困難である。
ノイズの多い聴覚入力に直面した場合、人間は、具体的環境における協調的な文脈を利用して、雑音の多い音声指示を解釈し、実用的な補助行動を取ることができる。
本稿では,認知にインスパイアされた神経シンボルモデルであるスポークインストラクション・インストラクション・フォロー・オブ・マインド(SIFToM)を提案する。
シミュレーション環境(VirtualHome)と実世界の人間ロボット協調環境(人間評価)の両方でSIFToMをテストする。
その結果、SIFToMは、軽量ベースVLM(Gemini 2.5 Flash)の性能を大幅に向上し、最先端のVLM(Gemini 2.5 Pro)より優れ、タスク後の音声指示に挑戦する人間レベルの精度に近づいていることがわかった。
関連論文リスト
- BoSS: Beyond-Semantic Speech [43.96461266560891]
ボSS(Beyond-Semantic Speech)は、意味論を包含するが、意味論を超越する音声コミュニケーションにおける情報の集合である。
本稿では、認知関連理論と機械学習モデルを利用して、時間的・文脈的な音声力学を解析するBoSSの形式化フレームワークを提案する。
これらの知見は、よりリッチでコンテキストに合った人間と機械のコミュニケーションを可能にするため、BoSS研究を進める必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-23T14:53:50Z) - Situated Instruction Following [87.37244711380411]
本稿では,実世界のコミュニケーションの非特異性とあいまいさを取り入れた位置指示について述べる。
位置指示の意味は、人間の過去の行動と将来の行動を通じて自然に展開される。
我々の実験は、現在最先端の身体的指示追従(EIF)モデルが、位置する人間の意図の全体的理解を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-07-15T19:32:30Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。