Fugu-MT 論文翻訳(概要): Empathetic Motion Generation for Humanoid Educational Robots via Reasoning-Guided Vision--Language--Motion Diffusion Architecture

論文の概要: Empathetic Motion Generation for Humanoid Educational Robots via Reasoning-Guided Vision--Language--Motion Diffusion Architecture

arxiv url: http://arxiv.org/abs/2603.18771v1
Date: Thu, 19 Mar 2026 11:26:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.985041
Title: Empathetic Motion Generation for Humanoid Educational Robots via Reasoning-Guided Vision--Language--Motion Diffusion Architecture
Title（参考訳）: Reasoning-Guided Vision-Language-Motion Diffusion Architectureによるヒューマノイド教育ロボットの共感運動生成
Authors: Fuze Sun, Lingyu Li, Lekan Dai, Xinyu Fan,
Abstract要約: 本稿では,ヒューマノイドロボットの学習シナリオにおける指示認識協調音声ジェスチャを生成するための推論誘導型視覚言語移動拡散フレームワーク(RG-VLMD)を提案する。本システムは,適応的かつ意味論的に整合したロボット動作を実現するために,マルチモーダルな感情推定,教育的推論,教示的条件付き動作合成を統合する。
参考スコア（独自算出の注目度）: 4.77320559246954
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This article suggests a reasoning-guided vision-language-motion diffusion framework (RG-VLMD) for generating instruction-aware co-speech gestures for humanoid robots in educational scenarios. The system integrates multi-modal affective estimation, pedagogical reasoning, and teaching-act-conditioned motion synthesis to enable adaptive and semantically consistent robot behavior. A gated mixture-of-experts model predicts Valence/Arousal from input text, visual, and acoustic features, which then mapped to discrete teaching-act categories through an affect-driven policy.These signals condition a diffusion-based motion generator using clip-level intent and frame-level instructional schedules via additive latent restriction with auxiliary action-group supervision. Compared to a baseline diffusion model, our proposed method produces more structured and distinctive motion patterns, as verified by motion statics and pairwise distance analysis. Generated motion sequences remain physically plausible and can be retargeted to a NAO robot for real-time execution. The results reveal that reasoning-guided instructional conditioning improves gesture controllability and pedagogical expressiveness in educational human-robot interaction.
Abstract（参考訳）: 本稿では,ヒューマノイドロボットの学習シナリオにおける指示認識協調音声ジェスチャを生成するための推論誘導型視覚言語移動拡散フレームワーク(RG-VLMD)を提案する。本システムは,適応的かつ意味論的に整合したロボット動作を実現するために,マルチモーダルな感情推定,教育的推論,教示的条件付き動作合成を統合する。入力テキスト,視覚的特徴,音響的特徴からValence/Arousalを予測し,感情駆動型ポリシーにより個別の教育行為カテゴリにマッピングした。これらの信号は,クリップレベルインテントを用いた拡散型モーションジェネレータと,補助行動群監視による付加的潜在的制限によるフレームレベル教育スケジュールを条件とした。ベースライン拡散モデルと比較して, 提案手法はより構造化され, 特異な動きパターンを生成する。生成した動きシーケンスは物理的に安定しており、リアルタイム実行のためにNAOロボットに再ターゲティングすることができる。その結果、推論誘導型指導条件は、教育的人間とロボットの相互作用におけるジェスチャー制御性と教育的表現性を向上することが明らかとなった。

関連論文リスト

FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文参考訳（メタデータ） (2025-09-29T03:30:40Z)
Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文参考訳（メタデータ） (2025-08-30T03:01:57Z)
Object-Centric Action-Enhanced Representations for Robot Visuo-Motor Policy Learning [21.142247150423863]
本稿では,意味的セグメンテーションと視覚表現生成を結合的に行うオブジェクト中心エンコーダを提案する。これを実現するために、Slot Attentionメカニズムを活用し、大規模なドメイン外のデータセットで事前訓練されたSOLVモデルを使用する。我々は、ドメイン外のデータセットで事前トレーニングされたモデルを活用することが、このプロセスの恩恵となり、人間のアクションを描写したデータセットの微調整により、パフォーマンスが大幅に向上することを示した。
論文参考訳（メタデータ） (2025-05-27T09:56:52Z)
Reciprocal Learning of Intent Inferral with Augmented Visual Feedback for Stroke [2.303526979876375]
本稿では,意図的推論型分類器への人間の適応を容易にする双方向パラダイムを提案する。我々はこのパラダイムを、脳卒中のためのロボットハンドの整形制御の文脈で実証する。脳卒中患者を対象に行った実験では,他者に対するパフォーマンスに悪影響を及ぼすことなく,サブセットでの相互学習によるパフォーマンス向上が見られた。
論文参考訳（メタデータ） (2024-12-10T22:49:36Z)
Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [101.26467307473638]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文参考訳（メタデータ） (2024-12-05T18:57:04Z)
EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文参考訳（メタデータ） (2024-10-30T17:22:45Z)
Synthesis and Execution of Communicative Robotic Movements with Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文参考訳（メタデータ） (2022-03-29T15:03:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。