論文の概要: Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport
- arxiv url: http://arxiv.org/abs/2603.03768v1
- Date: Wed, 04 Mar 2026 06:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.200309
- Title: Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport
- Title(参考訳): 制御に対する認知-ヒト・ヒューマノイド協調輸送のためのマルチエージェント学習-
- Authors: Hao Zhang, Ding Zhao, H. Eric Tseng,
- Abstract要約: 本稿では,3層階層構造である認知制御(C2C)について述べる。
協調操作タスクの実験は、単一エージェントとエンドツーエンドのベースラインよりも成功と堅牢性を示す。
- 参考スコア(独自算出の注目度): 36.304887250687536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective human-robot collaboration (HRC) requires translating high-level intent into contact-stable whole-body motion while continuously adapting to a human partner. Many vision-language-action (VLA) systems learn end-to-end mappings from observations and instructions to actions, but they often emphasize reactive (System 1-like) behavior and leave under-specified how sustained System 2-style deliberation can be integrated with reliable, low-latency continuous control. This gap is acute in multi-agent HRC, where long-horizon coordination decisions and physical execution must co-evolve under contact, feasibility, and safety constraints. We address this limitation with cognition-to-control (C2C), a three-layer hierarchy that makes the deliberation-to-control pathway explicit: (i) a VLM-based grounding layer that maintains persistent scene referents and infers embodiment-aware affordances/constraints; (ii) a deliberative skill/coordination layer-the System 2 core-that optimizes long-horizon skill choices and sequences under human-robot coupling via decentralized MARL cast as a Markov potential game with a shared potential encoding task progress; and (iii) a whole-body control layer that executes the selected skills at high frequency while enforcing kinematic/dynamic feasibility and contact stability. The deliberative layer is realized as a residual policy relative to a nominal controller, internalizing partner dynamics without explicit role assignment. Experiments on collaborative manipulation tasks show higher success and robustness than single-agent and end-to-end baselines, with stable coordination and emergent leader-follower behaviors.
- Abstract(参考訳): 効果的な人間ロボット協調(HRC)は、人間のパートナーに継続的に適応しながら、高レベルの意図を接触安定な全身運動に翻訳する必要がある。
多くの視覚-言語-アクション(VLA)システムは、観察と指示から行動へのエンドツーエンドのマッピングを学習するが、リアクティブな(システム1のような)振る舞いを強調し、システム2スタイルの熟考が信頼性と低レイテンシの継続的な制御とどのように統合されるかを明確にしないままにしておく。
このギャップは、長期の調整決定と物理的実行が接触、実現可能性、安全性の制約の下で共進化する必要があるマルチエージェント HRC において急激である。
この制限を認知制御(C2C)という3層階層の階層構造を用いて解決する。
i)VLMに基づく地平層であって,持続的なシーン参照を保持し,実施に留意すべき空き/制約を推測するもの
二 マルコフポテンシャルゲームとしての分散MARLキャストを介して人間とロボットの結合の下での長軸スキル選択とシーケンスを最適化するシステム2コアの熟考技術/調整層
三 キネマティック・ダイナミック性及び接触安定性を図りつつ、選択したスキルを高周波で実施する全身制御層。
熟考層は、名目制御器に対する残留ポリシーとして実現され、明示的な役割割り当てを伴わずにパートナーダイナミクスを内部化する。
協調操作タスクの実験では、単一エージェントとエンドツーエンドのベースラインよりも成功と堅牢性が向上し、安定したコーディネーションと創発的なリーダとフォロワーの振る舞いが示される。
関連論文リスト
- K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control [73.50217471850658]
K2-Agentは、計画と実行のための宣言的(何)および手続き的(どのように)知識を知り、共進化させることによって、人間のような認知をモデル化する階層的なフレームワークである。
挑戦的なAndroidWorldベンチマークでは、K2-Agentは生とオープンソースのバックボーンのみを使用して76.1%の成功率を達成した。
論文 参考訳(メタデータ) (2026-02-28T14:33:14Z) - Multi-Round Human-AI Collaboration with User-Specified Requirements [26.38833436936642]
我々は、対実的害と相補性という2つの原則によって支配される人間中心の視点を採用する。
ユーザ定義ルールにより,これらの概念を形式化し,利用者が害と相補性の意味を正確に指定できるようにする。
非定常的相互作用のダイナミクスの下でも,我々のオンライン手続きは所定の反実的被害と相補的違反率を維持していることを示す。
論文 参考訳(メタデータ) (2026-02-19T18:54:34Z) - PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution [64.15555230987222]
PACEvolveはエージェントのコンテキストと検索ダイナミクスを堅牢に管理するように設計されたフレームワークである。
PACEvolveは、一貫性のある長期自己改善のための体系的なパスを提供する。
論文 参考訳(メタデータ) (2026-01-15T18:25:23Z) - CTHA: Constrained Temporal Hierarchical Architecture for Stable Multi-Agent LLM Systems [0.0]
マルチスケールエージェントアーキテクチャは、異なる認知層を持つ時間階層を導入することで、ユビキタスなシングルループパラダイムを拡張した。
本稿では,協調的意思決定を確実にするための原則的調停機構を取り入れつつ,協調安定性を回復するための制約付き時間階層アーキテクチャ(CTHA)を提案する。
CTHAは大規模なタスク実行に有効であり、障害カスケードを47%削減し、サンプル効率を2.3倍改善した。
論文 参考訳(メタデータ) (2026-01-09T08:03:14Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Cooperative Target Detection with AUVs: A Dual-Timescale Hierarchical MARDL Approach [59.81681228738068]
敵の環境では、効率的な協調を実現するとともに、隠蔽活動を確保することが、水中での協力ミッションにとって重要な課題である。
本稿では,新しい時間スケール階層型マルチエージェント・ポリシー最適化フレームワークを提案する。
提案手法は, 高速収束を実現し, ベンチマークアルゴリズムの性能を向上し, 長期協調効率を最大化し, 隠蔽動作の確保を図る。
論文 参考訳(メタデータ) (2025-09-16T09:31:32Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Position Paper: Towards Open Complex Human-AI Agents Collaboration Systems for Problem Solving and Knowledge Management [0.15039745292757667]
我々は,Human-AI Agents Collaboration Systems(HAACS)のための技術に依存しない,コラボレーション可能なスタンスを提案する。
7次元のコラボスピンと人間とエージェントのコントラストを通して経験的なパターンを読み取ることで、欠落したピースを識別する。
アドホック接着剤を使わず,バイオサイバネティック拡張をスケッチすることなく,新たなエージェントプロトコルとの相互運用性を示す。
論文 参考訳(メタデータ) (2025-04-24T05:57:03Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks [17.914928652949314]
階層型合意に基づくマルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。
HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。
様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。
論文 参考訳(メタデータ) (2024-07-11T03:55:55Z) - Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout [16.454305212398328]
モデルベースロールアウト(GCMR)を用いたガイド協調という,目標条件付き階層型強化学習(HRL)フレームワークを提案する。
GCMRは、フォワードダイナミクスを利用して層間情報同期と協調をブリッジすることを目的としている。
実験により,提案したGCMRフレームワークをHIGLのアンタングル変種(ACLG)に組み込むことにより,より安定かつ堅牢な政策改善が得られた。
論文 参考訳(メタデータ) (2023-09-24T00:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。