論文の概要: Bridging Speech, Emotion, and Motion: a VLM-based Multimodal Edge-deployable Framework for Humanoid Robots
- arxiv url: http://arxiv.org/abs/2602.07434v1
- Date: Sat, 07 Feb 2026 08:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.619534
- Title: Bridging Speech, Emotion, and Motion: a VLM-based Multimodal Edge-deployable Framework for Humanoid Robots
- Title(参考訳): VLMに基づくヒューマノイドロボットのためのマルチモーダルエッジデプロイ可能なフレームワーク
- Authors: Songhua Yang, Xuetao Li, Xuanye Fei, Mengde Li, Miao Li,
- Abstract要約: textitSeM$2$は、感情的にコヒーレントなマルチモーダルインタラクションを編成するビジョン言語モデルベースのフレームワークである。
我々はクラウドベースとアンダーラインのtextitedge-deployedバージョン(textitSeM$2_e$)の両方を実装し、後者の知識はエッジハードウェア上で効率的に動作するように蒸留されている。
包括的評価は,本手法が自然性,感情的明瞭性,モーダルコヒーレンスにおいて,一様基線を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 7.665995147018354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective human-robot interaction requires emotionally rich multimodal expressions, yet most humanoid robots lack coordinated speech, facial expressions, and gestures. Meanwhile, real-world deployment demands on-device solutions that can operate autonomously without continuous cloud connectivity. To bridging \underline{\textit{S}}peech, \underline{\textit{E}}motion, and \underline{\textit{M}}otion, we present \textit{SeM$^2$}, a Vision Language Model-based framework that orchestrates emotionally coherent multimodal interactions through three key components: a multimodal perception module capturing user contextual cues, a Chain-of-Thought reasoning for response planning, and a novel Semantic-Sequence Aligning Mechanism (SSAM) that ensures precise temporal coordination between verbal content and physical expressions. We implement both cloud-based and \underline{\textit{e}}dge-deployed versions (\textit{SeM$^2_e$}), with the latter knowledge distilled to operate efficiently on edge hardware while maintaining 95\% of the relative performance. Comprehensive evaluations demonstrate that our approach significantly outperforms unimodal baselines in naturalness, emotional clarity, and modal coherence, advancing socially expressive humanoid robotics for diverse real-world environments.
- Abstract(参考訳): 効果的な人間とロボットの相互作用は、感情的に豊かなマルチモーダル表現を必要とするが、ほとんどのヒューマノイドロボットは、コーディネートされたスピーチ、表情、ジェスチャーを欠いている。
一方、現実世界のデプロイメントでは、継続的クラウド接続なしに自律的に動作するデバイス上のソリューションが要求される。
本稿では,感情的コヒーレントなマルチモーダルインタラクションを3つのキーコンポーネントを通じて編成するビジョン言語モデル(マルチモーダル認識モジュール,応答計画のための連鎖型推論モジュール,および音声内容と物理表現の正確な時間的協調を保証するセマンティックシーケンスアライニングメカニズム(SSAM))を提案する。
クラウドベース, および \underline{\textit{e}}dge-deployed バージョン (\textit{SeM$^2_e$}) の両方を実装し, 後者の知識は, 相対性能の95%を維持しつつ, エッジハードウェア上で効率的に動作するために蒸留された。
包括的評価から,本手法は自然性,感情的明瞭性,モダルコヒーレンスにおいて一様基線を著しく上回り,多様な実環境において社会的に表現力のあるヒューマノイドロボティクスを推し進めることを示す。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - AIVA: An AI-based Virtual Companion for Emotion-aware Interaction [10.811567597962453]
私たちのAIベースの仮想コンパニオンは、マルチモーダルな感情の手がかりをキャプチャします。
私たちの組織は、ロボット工学、社会医療、メンタルヘルス、人間中心のAIに応用された感情認識エージェントのためのフレームワークを提供します。
論文 参考訳(メタデータ) (2025-09-03T11:00:46Z) - OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation [29.41106195298283]
既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。
textbfweは、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するために設計されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:15:26Z) - Enhancing Explainability with Multimodal Context Representations for Smarter Robots [0.0]
人間とロボットのインタラクションの鍵となる問題は、ロボットが音声や視覚などのマルチモーダル入力を効果的に知覚し、推論できるようにすることである。
本稿では,言語と視覚の融合を改善するために,コンテキスト表現のための汎用的で説明可能なマルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-28T13:36:47Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。