論文の概要: A Multimodal Framework for Human-Multi-Agent Interaction
- arxiv url: http://arxiv.org/abs/2603.23271v1
- Date: Tue, 24 Mar 2026 14:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.536316
- Title: A Multimodal Framework for Human-Multi-Agent Interaction
- Title(参考訳): ヒューマン・マルチエージェントインタラクションのためのマルチモーダルフレームワーク
- Authors: Shaid Hasan, Breenice Lee, Sujan Sarker, Tariq Iqbal,
- Abstract要約: 本稿では,ロボットが自律認知エージェントとして機能するマルチエージェントインタラクションのためのマルチモーダルフレームワークを提案する。
チームレベルでは、集中的な調整機構がターンテイクとエージェントの参加を規制し、重複するスピーチを防ぐ。
今後の研究は、大規模ユーザ研究と、社会的基盤を持つマルチエージェントインタラクションダイナミクスのより深い探索に焦点を当てる予定である。
- 参考スコア(独自算出の注目度): 5.410329948686681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-robot interaction is increasingly moving toward multi-robot, socially grounded environments. Existing systems struggle to integrate multimodal perception, embodied expression, and coordinated decision-making in a unified framework. This limits natural and scalable interaction in shared physical spaces. We address this gap by introducing a multimodal framework for human-multi-agent interaction in which each robot operates as an autonomous cognitive agent with integrated multimodal perception and Large Language Model (LLM)-driven planning grounded in embodiment. At the team level, a centralized coordination mechanism regulates turn-taking and agent participation to prevent overlapping speech and conflicting actions. Implemented on two humanoid robots, our framework enables coherent multi-agent interaction through interaction policies that combine speech, gesture, gaze, and locomotion. Representative interaction runs demonstrate coordinated multimodal reasoning across agents and grounded embodied responses. Future work will focus on larger-scale user studies and deeper exploration of socially grounded multi-agent interaction dynamics.
- Abstract(参考訳): 人間とロボットのインタラクションは、ますます、マルチロボット、社会的に接地された環境へと向かっている。
既存のシステムは、マルチモーダルな認識、具体的表現、および統合されたフレームワークにおける協調的な意思決定を統合するのに苦労している。
これにより、共有物理空間における自然かつスケーラブルな相互作用が制限される。
このギャップを解消するために、ロボットが統合されたマルチモーダル認知エージェントとして機能するマルチモーダル・エージェント・インタラクションのためのマルチモーダル・フレームワークと、具体化されたLLM(Large Language Model)駆動計画を導入する。
チームレベルでは、集中的な調整機構がターンテイクとエージェントの参加を規制し、重複するスピーチや矛盾するアクションを防ぐ。
2つのヒューマノイドロボットに実装された本フレームワークは,音声,ジェスチャー,視線,移動を組み合わせたインタラクションポリシを通じて,コヒーレントなマルチエージェントインタラクションを実現する。
代表的相互作用はエージェント間の協調的マルチモーダル推論と接地された具体的応答を示す。
今後の研究は、大規模ユーザ研究と、社会的基盤を持つマルチエージェントインタラクションダイナミクスのより深い探索に焦点を当てる予定である。
関連論文リスト
- Diffusion Forcing for Multi-Agent Interaction Sequence Modeling [52.769202433667125]
MAGNetはマルチエージェントモーション生成のための統合された自己回帰拡散フレームワークである。
フレキシブルな条件付けとサンプリングを通じて、幅広いインタラクションタスクをサポートする。
緊密に同期された活動と、ゆるやかに構造化された社会的相互作用の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-12-19T18:59:02Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - Emergent Crowds Dynamics from Language-Driven Multi-Agent Interactions [6.149858590971363]
エージェントの動きを制御するために,大規模言語モデル(LLM)を利用する新しい手法を提案する。
社会的相互作用, ステアリング, 群集間の相互作用を実証する2つの複雑なシナリオで本手法を検証した。
本研究では,環境環境から自然に発生する集団行動を用いて,より現実的な群集シミュレーションを行う。
論文 参考訳(メタデータ) (2025-08-20T20:15:14Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Multi-robot Social-aware Cooperative Planning in Pedestrian Environments
Using Multi-agent Reinforcement Learning [2.7716102039510564]
我々は、非政治的マルチエージェント強化学習(MARL)に基づく、新しいマルチロボット・ソーシャル・アウェア・効率的な協調プランナーを提案する。
我々は、時間空間グラフ(TSG)に基づくソーシャルエンコーダを採用し、その視野における各ロボットと歩行者の社会的関係の重要性をよりよく抽出する。
論文 参考訳(メタデータ) (2022-11-29T03:38:47Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。