論文の概要: Redefining Robot Generalization Through Interactive Intelligence
- arxiv url: http://arxiv.org/abs/2502.05963v1
- Date: Sun, 09 Feb 2025 17:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:32.176260
- Title: Redefining Robot Generalization Through Interactive Intelligence
- Title(参考訳): インタラクティブインテリジェンスによるロボットの一般化の再定義
- Authors: Sharmita Dey,
- Abstract要約: ロボットファンデーションモデルは、リアルタイムの人間-ロボット共適応の複雑さを扱うために、インタラクティブなマルチエージェント視点に進化する必要がある、と我々は主張する。
シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advances in large-scale machine learning have produced high-capacity foundation models capable of adapting to a broad array of downstream tasks. While such models hold great promise for robotics, the prevailing paradigm still portrays robots as single, autonomous decision-makers, performing tasks like manipulation and navigation, with limited human involvement. However, a large class of real-world robotic systems, including wearable robotics (e.g., prostheses, orthoses, exoskeletons), teleoperation, and neural interfaces, are semiautonomous, and require ongoing interactive coordination with human partners, challenging single-agent assumptions. In this position paper, we argue that robot foundation models must evolve to an interactive multi-agent perspective in order to handle the complexities of real-time human-robot co-adaptation. We propose a generalizable, neuroscience-inspired architecture encompassing four modules: (1) a multimodal sensing module informed by sensorimotor integration principles, (2) an ad-hoc teamwork model reminiscent of joint-action frameworks in cognitive science, (3) a predictive world belief model grounded in internal model theories of motor control, and (4) a memory/feedback mechanism that echoes concepts of Hebbian and reinforcement-based plasticity. Although illustrated through the lens of cyborg systems, where wearable devices and human physiology are inseparably intertwined, the proposed framework is broadly applicable to robots operating in semi-autonomous or interactive contexts. By moving beyond single-agent designs, our position emphasizes how foundation models in robotics can achieve a more robust, personalized, and anticipatory level of performance.
- Abstract(参考訳): 大規模機械学習の最近の進歩は、幅広い下流タスクに適応可能な高容量基礎モデルを生み出している。
このようなモデルはロボティクスにとって大きな可能性を秘めているが、一般的なパラダイムはロボットを単独で自律的な意思決定者として表現し、操作やナビゲーションなどのタスクを人間に限定して実行している。
しかしながら、ウェアラブルロボット(例えば、義肢、義肢、整形、外骨格)、遠隔操作、神経インターフェースなど)を含む多くの現実世界のロボットシステムは半自律的であり、人間のパートナーとの対話的な連携を必要とし、単一エージェントの仮定に挑戦する。
本稿では,ロボット基盤モデルがリアルタイムロボット協調適応の複雑さに対処するために,対話型マルチエージェント視点に進化する必要があることを論じる。
本研究では, 認知科学における協調行動の枠組みを連想させるマルチモーダルセンシングモジュール, 運動制御の内部モデル理論に基づく予測的世界信念モデル, および, ヘビアンと強化型プラスティックの概念を反映したメモリ/フィードバック機構の4つのモジュールを包含する, 汎用的で神経科学にインスパイアされたアーキテクチャを提案する。
ウェアラブルデバイスと人間の生理学が分離可能となるサイボーグシステムのレンズを通して図示されているが、提案フレームワークは半自律的あるいは対話的な環境で動作しているロボットに広く適用可能である。
シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Unifying 3D Representation and Control of Diverse Robots with a Single Camera [48.279199537720714]
我々は,ロボットを視覚のみからモデル化し,制御することを自律的に学習するアーキテクチャであるNeural Jacobian Fieldsを紹介する。
提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文 参考訳(メタデータ) (2024-07-11T17:55:49Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory [3.3906920519220054]
Nadineプラットフォームのためのインテリジェントで堅牢なソーシャルロボティクスシステムを開発するための当社のアプローチについて説明する。
我々は,Large Language Models(LLMs)を統合し,これらのモデルの強力な推論と命令追従機能を巧みに活用することで,これを実現する。
このアプローチは、人間のような長期記憶や洗練された感情評価を実装しない、現在最先端のLCMベースのエージェントと比較して、斬新である。
論文 参考訳(メタデータ) (2024-05-30T15:55:41Z) - Multi-modal perception for soft robotic interactions using generative models [2.4100803794273]
知覚は、物理的エージェントと外部環境との活発な相互作用に不可欠である。
触覚や視覚などの複数の感覚モダリティの統合により、このプロセスが強化される。
本稿では,多種多様なモダリティからのデータを調和させて全体的状態表現を構築する知覚モデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:06:03Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - General-purpose foundation models for increased autonomy in
robot-assisted surgery [4.155479231940454]
本稿では,ロボット支援手術における自律性向上を目指す。
手術ロボットは汎用モデルの利点を享受し,ロボット支援手術における自律性向上に向けた3つの指針を提供する。
論文 参考訳(メタデータ) (2024-01-01T06:15:16Z) - World Models and Predictive Coding for Cognitive and Developmental
Robotics: Frontiers and Challenges [51.92834011423463]
我々は世界モデルと予測符号化の2つの概念に焦点を当てる。
神経科学において、予測符号化は、脳がその入力を継続的に予測し、その環境における自身のダイナミクスと制御行動のモデル化に適応するように提案する。
論文 参考訳(メタデータ) (2023-01-14T06:38:14Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - Sensorimotor representation learning for an "active self" in robots: A
model survey [10.649413494649293]
人間では、これらの能力は宇宙で私たちの身体を知覚する能力と関連していると考えられている。
本稿では,これらの能力の発達過程について概説する。
人工エージェントにおける自己感覚の出現を可能にする理論計算フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-25T16:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。