論文の概要: LocoVLM: Grounding Vision and Language for Adapting Versatile Legged Locomotion Policies
- arxiv url: http://arxiv.org/abs/2602.10399v1
- Date: Wed, 11 Feb 2026 01:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.349627
- Title: LocoVLM: Grounding Vision and Language for Adapting Versatile Legged Locomotion Policies
- Title(参考訳): LocoVLM:Versatile Legged Locomotion Policiesに適応するための接地ビジョンと言語
- Authors: I Made Aswin Nahrendra, Seunghyun Lee, Dongkyu Lee, Hyun Myung,
- Abstract要約: 新たなアプローチは、基礎モデルから高レベルのコモンセンス推論を脚移動適応のプロセスに統合する。
事前学習された視覚言語モデルを用いて、高度な環境意味論を抽出し、それらをスキルデータベース内に構築する。
我々の知る限りでは、環境意味論や指示追従精度最大87%の指示による高レベル推論を用いて、足歩行のリアルタイム適応を実演する最初の試みである。
- 参考スコア(独自算出の注目度): 16.54973278111267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in legged locomotion learning are still dominated by the utilization of geometric representations of the environment, limiting the robot's capability to respond to higher-level semantics such as human instructions. To address this limitation, we propose a novel approach that integrates high-level commonsense reasoning from foundation models into the process of legged locomotion adaptation. Specifically, our method utilizes a pre-trained large language model to synthesize an instruction-grounded skill database tailored for legged robots. A pre-trained vision-language model is employed to extract high-level environmental semantics and ground them within the skill database, enabling real-time skill advisories for the robot. To facilitate versatile skill control, we train a style-conditioned policy capable of generating diverse and robust locomotion skills with high fidelity to specified styles. To the best of our knowledge, this is the first work to demonstrate real-time adaptation of legged locomotion using high-level reasoning from environmental semantics and instructions with instruction-following accuracy of up to 87% without the need for online query to on-the-cloud foundation models.
- Abstract(参考訳): 足歩行学習の最近の進歩は、ロボットが人間の指示のようなより高度な意味論に反応する能力を制限するため、環境の幾何学的表現の利用によって依然として支配されている。
この制限に対処するために,基礎モデルから高レベルなコモンセンス推論を脚移動適応のプロセスに統合する手法を提案する。
具体的には、トレーニング済みの大規模言語モデルを用いて、足場ロボットに適した教示地上スキルデータベースを合成する。
事前学習された視覚言語モデルを用いて、高度な環境意味論を抽出し、それらをスキルデータベースに格納し、ロボットのリアルタイムスキルアドバイザリーを可能にする。
汎用的なスキルコントロールを容易にするため,多種多様なロコモーションスキルを特定のスタイルに忠実に生成できるスタイル条件付きポリシーを訓練する。
私たちの知る限りでは、環境意味論や命令フォローの精度を最大87%と高レベルな推論を用いて、クラウド上の基盤モデルへのオンラインクエリを必要とせずに、足の移動のリアルタイム適応を実演するのは、これが初めてです。
関連論文リスト
- IROSA: Interactive Robot Skill Adaptation using Natural Language [9.66356526923778]
ツールベースアーキテクチャによるオープン語彙スキル適応を実現する新しいフレームワークを提案する。
本研究では,産業用軸受リング挿入作業を行う7-DoFトルク制御ロボットの枠組みを実証する。
論文 参考訳(メタデータ) (2026-03-04T09:54:09Z) - Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。
本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。
我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文 参考訳(メタデータ) (2025-04-17T08:48:23Z) - STEER: Flexible Robotic Manipulation via Dense Language Grounding [16.97343810491996]
STEERは、高精度でフレキシブルな低レベル制御で高レベルの常識推論をブリッジする、ロボット学習フレームワークである。
本手法は, 複雑な状況認識を, 厳密なアノテーションによる言語基盤ポリシーの訓練を通じて, 行動可能な低レベル行動に変換する。
論文 参考訳(メタデータ) (2024-11-05T18:48:12Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。