論文の概要: Hume: Introducing System-2 Thinking in Visual-Language-Action Model
- arxiv url: http://arxiv.org/abs/2505.21432v2
- Date: Thu, 29 May 2025 15:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.761764
- Title: Hume: Introducing System-2 Thinking in Visual-Language-Action Model
- Title(参考訳): Hume: Visual-Language-Action ModelにおけるSystem-2の導入
- Authors: Haoming Song, Delin Qu, Yuanqi Yao, Qizhi Chen, Qi Lv, Yiwen Tang, Modi Shi, Guanghui Ren, Maoqing Yao, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: Humeは、価値誘導されたSystem-2思考とカスケードされたアクション記述を備えたデュアルシステムビジョン・ランゲージ・アクションモデルである。
システム1(System 1)は、システム2の選択されたアクションを採り、巧妙なロボット制御のためにカスケードされたアクションを演ずる軽量な反応性ビズモータポリシーである。
我々は,Humが既存のVision-Language-Actionモデルよりも,複数のシミュレーションベンチマークと実ロボットのデプロイで優れていることを示す。
- 参考スコア(独自算出の注目度): 40.09132373599363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans practice slow thinking before performing actual actions when handling complex tasks in the physical world. This thinking paradigm, recently, has achieved remarkable advancement in boosting Large Language Models (LLMs) to solve complex tasks in digital domains. However, the potential of slow thinking remains largely unexplored for robotic foundation models interacting with the physical world. In this work, we propose Hume: a dual-system Vision-Language-Action (VLA) model with value-guided System-2 thinking and cascaded action denoising, exploring human-like thinking capabilities of Vision-Language-Action models for dexterous robot control. System 2 of Hume implements value-Guided thinking by extending a Vision-Language-Action Model backbone with a novel value-query head to estimate the state-action value of predicted actions. The value-guided thinking is conducted by repeat sampling multiple action candidates and selecting one according to state-action value. System 1 of Hume is a lightweight reactive visuomotor policy that takes System 2 selected action and performs cascaded action denoising for dexterous robot control. At deployment time, System 2 performs value-guided thinking at a low frequency while System 1 asynchronously receives the System 2 selected action candidate and predicts fluid actions in real time. We show that Hume outperforms the existing state-of-the-art Vision-Language-Action models across multiple simulation benchmark and real-robot deployments.
- Abstract(参考訳): 人間は、物理的な世界で複雑なタスクを扱う際に、実際のアクションを実行する前にゆっくり考えることを練習します。
この思考パラダイムは、近年、デジタルドメインの複雑なタスクを解決するために、LLM(Large Language Models)を飛躍的に向上させています。
しかし、遅い思考の可能性は、物理世界と相互作用するロボット基礎モデルにとって、まだほとんど解明されていない。
本研究では,価値誘導型システム-2思考とケースケード動作デノベーションを備えたデュアルシステム型ビジョン・ランゲージ・アクション(VLA)モデルであるヒュームを提案する。
ヒュームのシステム2は、新しいバリュークエリーヘッドでビジョンランゲージ・アクションモデルバックボーンを拡張して、予測されたアクションの状態-アクション値を推定することによって、バリューガイド型思考を実装している。
複数のアクション候補を繰り返しサンプリングし、状態-動作値に応じて1つを選択することにより、価値誘導思考を行う。
ヒュームのシステム1(英: System 1 of Hume)は、システム2が選択したアクションを受け取り、巧妙なロボット制御のためにカスケードされたアクションをデノベーションする軽量な反応型ビズモータポリシーである。
配置時に、システム2は低周波で価値誘導思考を行い、システム1は、システム2選択されたアクション候補を非同期に受信し、流体作用をリアルタイムで予測する。
我々は,Humが既存のVision-Language-Actionモデルよりも,複数のシミュレーションベンチマークと実ロボットのデプロイで優れていることを示す。
関連論文リスト
- DMWM: Dual-Mind World Model with Long-Term Imagination [53.98633183204453]
本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。
提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
論文 参考訳(メタデータ) (2025-02-11T14:40:57Z) - RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation [39.44358155600282]
本稿では,ロボット推論とアクション機能の両方を提供する,エンドツーエンドのロボットVLAモデルであるRoboMambaを紹介する。
具体的には、視覚エンコーダをMambaと統合し、コトレーニングによる言語埋め込みと視覚トークンを整合させる。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
論文 参考訳(メタデータ) (2024-06-06T17:59:47Z) - Language-Conditioned Robotic Manipulation with Fast and Slow Thinking [30.36976573047372]
我々は、人間の認知アーキテクチャを模倣してタスクを分類するフレームワーク、Fast and Slow Thinking (RFST)を紹介した。
RFSTは,1)現在のユーザ命令に基づいてどのシステムが起動されるべきかを決定する命令判別器,2)ポリシーネットワークに整合した微調整された視覚言語モデルで構成されるスロー思考システム,の2つの主要コンポーネントから構成される。
シミュレーションと実世界のシナリオの両方において,本手法が意図認識と推論を必要とする複雑なタスクを十分に管理していることを確認した。
論文 参考訳(メタデータ) (2024-01-08T19:00:32Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - DeepSSM: Deep State-Space Model for 3D Human Motion Prediction [19.35552462734875]
我々は、深部状態空間モデル(DeepSSM)を構築することにより、より正確な予測を行うために、人間の動作系のマルチオーダーモデリング能力を改善する。
具体的には、動的システムの状態空間モデルとして人間の動き系を定式化し、状態空間理論により運動系をモデル化する。
新しいディープネットワークは、状態遷移と状態保存遷移のプロセスを共同でモデル化する、このシステムをパラメータ化するように設計されている。
論文 参考訳(メタデータ) (2020-05-25T15:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。