論文の概要: A Framework for Low-Latency, LLM-driven Multimodal Interaction on the Pepper Robot
- arxiv url: http://arxiv.org/abs/2603.21013v1
- Date: Fri, 09 Jan 2026 17:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.961611
- Title: A Framework for Low-Latency, LLM-driven Multimodal Interaction on the Pepper Robot
- Title(参考訳): ペッパーロボットにおける低レイテンシLLM駆動型マルチモーダルインタラクションのためのフレームワーク
- Authors: Erich Studerus, Vivienne Jia Zhong, Stephan Vonschallen,
- Abstract要約: 我々はPepperロボットのためのオープンソースのAndroidフレームワークを提案する。
エンドツーエンド音声合成(S2S)モデルを統合し,低レイテンシインタラクションを実現する。
我々は,大規模言語モデルをエージェントプランナに高める機能拡張を実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in integrating Large Language Models (LLMs) into social robotics, two weaknesses persist. First, existing implementations on platforms like Pepper often rely on cascaded Speech-to-Text (STT)->LLM->Text-to-Speech (TTS) pipelines, resulting in high latency and the loss of paralinguistic information. Second, most implementations fail to fully leverage the LLM's capabilities for multimodal perception and agentic control. We present an open-source Android framework for the Pepper robot that addresses these limitations through two key innovations. First, we integrate end-to-end Speech-to-Speech (S2S) models to achieve low-latency interaction while preserving paralinguistic cues and enabling adaptive intonation. Second, we implement extensive Function Calling capabilities that elevate the LLM to an agentic planner, orchestrating robot actions (navigation, gaze control, tablet interaction) and integrating diverse multimodal feedback (vision, touch, system state). The framework runs on the robot's tablet but can also be built to run on regular Android smartphones or tablets, decoupling development from robot hardware. This work provides the HRI community with a practical, extensible platform for exploring advanced LLM-driven embodied interaction.
- Abstract(参考訳): 大規模言語モデル(LLM)を社会ロボティクスに統合する最近の進歩にもかかわらず、2つの弱点は残る。
第一に、Pepperのようなプラットフォーム上の既存の実装は、しばしばカスケードされたSpeech-to-Text(STT)->LLM->Text-to-Speech(TTS)パイプラインに依存し、高いレイテンシとパラ言語情報を失う。
第二に、ほとんどの実装はマルチモーダル認識とエージェント制御のためのLLMの機能を完全に活用することができない。
我々はPepperロボットのためのオープンソースのAndroidフレームワークを提案し、2つの重要なイノベーションを通じてこれらの制限に対処する。
まず、パラ言語的手がかりを保ち、適応的イントネーションを実現しつつ、低レイテンシ相互作用を実現するために、エンドツーエンド音声音声合成(S2S)モデルを統合する。
第2に, LLMをエージェントプランナに昇格させ, ロボット動作(ナビゲーション, 視線制御, タブレットインタラクション)を編成し, 多様なマルチモーダルフィードバック(ビジョン, タッチ, システム状態)を統合する機能呼び出し機能を実装する。
このフレームワークはロボットのタブレットで動くが、通常のAndroidスマートフォンやタブレットで動くように構築することもできる。
この研究により、HRIコミュニティは、高度なLCM駆動型エンボディドインタラクションを探索するための実用的で拡張可能なプラットフォームを提供する。
関連論文リスト
- RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.09049429566238]
我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。
目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。
シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
論文 参考訳(メタデータ) (2025-10-27T18:49:03Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - A Sign Language Recognition System with Pepper, Lightweight-Transformer,
and LLM [0.9775599530257609]
本研究は,ヒューマノイドロボットPepperがAmerican Sign Language(ASL)を理解するために,軽量なディープニューラルネットワークアーキテクチャを用いた検討である。
組込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し,計算資源を保存しながら,迅速な手話認識を実現する。
我々は、Pepper Robotが自然なCo-Speech Gesture応答を生成できるように対話を調整し、より有機的で直感的なヒューマノイドロボット対話の基礎を築いた。
論文 参考訳(メタデータ) (2023-09-28T23:54:41Z) - GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System [8.660929270060146]
大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。
このシステムは、音声の概念的意味に基づいて適切なジェスチャーを選択する、音声合成システムと統合されている。
論文 参考訳(メタデータ) (2023-05-10T10:14:16Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。