論文の概要: HumanoidVLM: Vision-Language-Guided Impedance Control for Contact-Rich Humanoid Manipulation
- arxiv url: http://arxiv.org/abs/2601.14874v1
- Date: Wed, 21 Jan 2026 11:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.882373
- Title: HumanoidVLM: Vision-Language-Guided Impedance Control for Contact-Rich Humanoid Manipulation
- Title(参考訳): HumanoidVLM: コンタクトリッチヒューマノイドマニピュレーションのためのビジョンランゲージ誘導インピーダンス制御
- Authors: Yara Mahmoud, Yasheerah Yaqoot, Miguel Altamirano Cabrera, Dzmitry Tsetserukou,
- Abstract要約: 本稿では,Unitree G1ヒューマノイドが,エゴセントリックなRGB画像から直接タスク適合インピーダンスパラメータとグリップ構成を選択できるようにする,視覚言語による検索フレームワークであるHumanoidVLMを紹介する。
我々は14の視覚的シナリオでHumanoidVLMを評価し,93%の精度で検索を行った。
- 参考スコア(独自算出の注目度): 2.460614761319643
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humanoid robots must adapt their contact behavior to diverse objects and tasks, yet most controllers rely on fixed, hand-tuned impedance gains and gripper settings. This paper introduces HumanoidVLM, a vision-language driven retrieval framework that enables the Unitree G1 humanoid to select task-appropriate Cartesian impedance parameters and gripper configurations directly from an egocentric RGB image. The system couples a vision-language model for semantic task inference with a FAISS-based Retrieval-Augmented Generation (RAG) module that retrieves experimentally validated stiffness-damping pairs and object-specific grasp angles from two custom databases, and executes them through a task-space impedance controller for compliant manipulation. We evaluate HumanoidVLM on 14 visual scenarios and achieve a retrieval accuracy of 93%. Real-world experiments show stable interaction dynamics, with z-axis tracking errors typically within 1-3.5 cm and virtual forces consistent with task-dependent impedance settings. These results demonstrate the feasibility of linking semantic perception with retrieval-based control as an interpretable path toward adaptive humanoid manipulation.
- Abstract(参考訳): ヒューマノイドロボットは、様々な物体やタスクに接触行動を適用する必要があるが、ほとんどのコントローラーは固定された手動インピーダンスゲインとグリッパー設定に依存している。
本稿では,Unitree G1ヒューマノイドを用いた視覚言語による検索フレームワークであるHumanoidVLMを紹介した。
このシステムは、FAISSベースのRetrieval-Augmented Generation (RAG)モジュールとセマンティックタスク推論のための視覚言語モデルとを結合し、2つのカスタムデータベースから実験的に検証された剛性減衰対とオブジェクト固有のグリップ角を検索し、コンプライアンス操作のためのタスク空間インピーダンスコントローラを介して実行する。
我々は14の視覚的シナリオでHumanoidVLMを評価し,93%の精度で検索を行った。
実世界の実験では、z軸追跡誤差は通常1-3.5cm以内で、仮想力はタスク依存インピーダンス設定と一致している。
これらの結果は、適応的なヒューマノイド操作への解釈可能な経路として、意味認識と検索に基づく制御をリンクする可能性を示している。
関連論文リスト
- ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration [26.351720551267846]
触覚と審美的知覚は、人間の器用な操作に欠かせないものであり、感覚運動器統合による物体の確実な把握を可能にしている。
本研究では,人間の直感的・自然な操作から模倣学習に基づくロボット実行へのスキル伝達を把握するための,新しい手袋による触覚的知覚予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T07:44:12Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。
このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文 参考訳(メタデータ) (2020-05-01T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。