論文の概要: Learning to Generate Pointing Gestures in Situated Embodied Conversational Agents
- arxiv url: http://arxiv.org/abs/2509.12507v1
- Date: Mon, 15 Sep 2025 23:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.803217
- Title: Learning to Generate Pointing Gestures in Situated Embodied Conversational Agents
- Title(参考訳): 身近な会話エージェントにおけるポインティング・ジェスチャ生成の学習
- Authors: Anna Deichler, Siyang Wang, Simon Alexanderson, Jonas Beskow,
- Abstract要約: 本稿では,模倣と強化学習を組み合わせることで,具体的エージェントのポインティングジェスチャーを生成する枠組みを提案する。
我々は,客観的指標と仮想空間的参照ゲームの両方において,教師付き学習と検索のベースラインに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 19.868403110796105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main goals of robotics and intelligent agent research is to enable natural communication with humans in physically situated settings. While recent work has focused on verbal modes such as language and speech, non-verbal communication is crucial for flexible interaction. We present a framework for generating pointing gestures in embodied agents by combining imitation and reinforcement learning. Using a small motion capture dataset, our method learns a motor control policy that produces physically valid, naturalistic gestures with high referential accuracy. We evaluate the approach against supervised learning and retrieval baselines in both objective metrics and a virtual reality referential game with human users. Results show that our system achieves higher naturalness and accuracy than state-of-the-art supervised models, highlighting the promise of imitation-RL for communicative gesture generation and its potential application to robots.
- Abstract(参考訳): ロボット工学とインテリジェントエージェント研究の主な目的の1つは、物理的に位置した環境で人間と自然なコミュニケーションを可能にすることである。
最近の研究は言語や音声などの言語モードに重点を置いているが、非言語コミュニケーションはフレキシブルな相互作用に不可欠である。
本稿では,模倣と強化学習を組み合わせることで,具体的エージェントのポインティングジェスチャーを生成する枠組みを提案する。
そこで本手法では,小さなモーションキャプチャーデータセットを用いて,物理的に有効な自然なジェスチャーを高精度に生成するモータ制御ポリシーを学習する。
我々は,客観的指標と仮想空間的参照ゲームの両方において,教師付き学習と検索のベースラインに対するアプローチを評価する。
以上の結果から,本システムは,コミュニケーションジェスチャ生成における模倣-RLの約束とロボットへの適用性を強調し,最先端の教師付きモデルよりも自然性や正確性の向上を図っている。
関連論文リスト
- Towards Context-Aware Human-like Pointing Gestures with RL Motion Imitation [19.868403110796105]
多様なスタイル,手,空間的対象をカバーする人間の指さし動作のモーションキャプチャーデータセットを提案する。
動作模倣による強化学習を用いて, 精度を最大化しつつ, 人間の様相を再現する政策を訓練する。
論文 参考訳(メタデータ) (2025-09-16T09:30:42Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。
この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文 参考訳(メタデータ) (2025-05-09T11:48:36Z) - Inter-Diffusion Generation Model of Speakers and Listeners for Effective Communication [4.49451692966442]
本稿では,効果的なコミュニケーションのための話者と聞き手の拡散間生成モデルを提案する。
初めて、リスナーのフルボディジェスチャーを生成フレームワークに統合する。
論文 参考訳(メタデータ) (2025-05-08T07:00:58Z) - Signaling and Social Learning in Swarms of Robots [0.0]
本稿では,ロボット群における協調性向上におけるコミュニケーションの役割について検討する。
クレジット代入問題に対処する上で,コミュニケーションが果たす役割を強調した。
論文 参考訳(メタデータ) (2024-11-18T14:42:15Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。