論文の概要: Embodied Learning of Reward for Musculoskeletal Control with Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.23077v1
- Date: Sun, 28 Dec 2025 20:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.540943
- Title: Embodied Learning of Reward for Musculoskeletal Control with Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた筋骨格制御のための逆流の身体的学習
- Authors: Saraswati Soedarmadji, Yunyue Wei, Chen Zhang, Yisong Yue, Yanan Sui,
- Abstract要約: 目標仕様と移動制御のギャップを埋めるために、MoVLR(MoV-Language Representation)を導入する。
MoVLRは、制御最適化と視覚言語モデル間の反復的な相互作用を通じて報酬空間を反復的に探索する。
我々のアプローチは言語と視覚に基づく評価を、具体的学習のための構造化されたガイダンスに変換する。
- 参考スコア(独自算出の注目度): 35.510214544599876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering effective reward functions remains a fundamental challenge in motor control of high-dimensional musculoskeletal systems. While humans can describe movement goals explicitly such as "walking forward with an upright posture," the underlying control strategies that realize these goals are largely implicit, making it difficult to directly design rewards from high-level goals and natural language descriptions. We introduce Motion from Vision-Language Representation (MoVLR), a framework that leverages vision-language models (VLMs) to bridge the gap between goal specification and movement control. Rather than relying on handcrafted rewards, MoVLR iteratively explores the reward space through iterative interaction between control optimization and VLM feedback, aligning control policies with physically coordinated behaviors. Our approach transforms language and vision-based assessments into structured guidance for embodied learning, enabling the discovery and refinement of reward functions for high-dimensional musculoskeletal locomotion and manipulation. These results suggest that VLMs can effectively ground abstract motion descriptions in the implicit principles governing physiological motor control.
- Abstract(参考訳): 効果的な報酬関数の発見は、高次元筋骨格系の運動制御における根本的な課題である。
人間は「直立姿勢で前進する」などの運動目標を明示的に記述できるが、これらの目標を実現する基本的な制御戦略はおおむね暗黙的であり、高い水準の目標や自然言語の記述から直接報酬を設計することは困難である。
目標仕様と移動制御のギャップを埋めるために視覚言語モデル(VLM)を利用するフレームワークであるMoVLR(MoV-Language Representation)を導入する。
手作りの報酬に頼るのではなく、MoVLRは制御最適化とVLMフィードバックの反復的な相互作用を通じて報酬空間を反復的に探索し、制御ポリシーを物理的に調整された振る舞いと整合させる。
我々のアプローチは言語と視覚に基づく評価を具体化学習のための構造化されたガイダンスに変換し、高次元筋骨格運動と操作のための報酬関数の発見と洗練を可能にする。
これらの結果は、VLMが生理的運動制御を規定する暗黙の原則において、抽象的な動作記述を効果的に基礎にすることができることを示唆している。
関連論文リスト
- Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。
本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。
我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-30T03:01:57Z) - ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models [26.955482205849282]
LVLM(Large Vision-Language Models)は近年,視覚をシーン認識や言語に活用してロボット操作を進化させた。
本稿では,従来の指導をRLVR(Verifiable Rewards)を用いた強化学習に置き換える新しい強化学習フレームワークであるManipLVM-R1を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:57:07Z) - Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - Active Vision Reinforcement Learning under Limited Visual Observability [46.99501921691587]
本研究では,動作型視覚強化学習(ActiveVision-RL)において,実施エージェントが同時にタスクの動作方針を学習すると同時に,部分的に観察可能な環境下での視覚的観察を制御する。
運動と感覚のポリシーを個別にモデル化するフレームワークであるSUGARLを提案するが、本質的な感覚モチーフ報酬を用いて共同で学習する。
論文 参考訳(メタデータ) (2023-06-01T17:59:05Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。