Fugu-MT 論文翻訳(概要): PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

論文の概要: PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

arxiv url: http://arxiv.org/abs/2603.05410v1
Date: Thu, 05 Mar 2026 17:33:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.950186
Title: PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking
Title（参考訳）: PhysiFlow:マルチブラインドフローマッチングとロバストトラッキングによる物理認識型ヒューマノイドVLA
Authors: Weikai Qin, Sichen Wu, Ci Chen, Mengfan Liu, Linxi Feng, Xinru Cui, Haoqi Han, Hesheng Wang,
Abstract要約: 本稿では,ヒューマノイド全体制御のためのセマンティック・ムーブメント・ガイド付き物理対応多脳VLAフレームワークを提案する。実験結果から,ヒューマノイドロボットの視覚言語誘導型全体調整が可能であった。
参考スコア（独自算出の注目度）: 14.829759870068145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the domain of humanoid robot control, the fusion of Vision-Language-Action (VLA) with whole-body control is essential for semantically guided execution of real-world tasks. However, existing methods encounter challenges in terms of low VLA inference efficiency or an absence of effective semantic guidance for whole-body control, resulting in instability in dynamic limb-coordinated tasks. To bridge this gap, we present a semantic-motion intent guided, physics-aware multi-brain VLA framework for humanoid whole-body control. A series of experiments was conducted to evaluate the performance of the proposed framework. The experimental results demonstrated that the framework enabled reliable vision-language-guided full-body coordination for humanoid robots.
Abstract（参考訳）: ヒューマノイドロボット制御の分野において、実世界のタスクを意味的に導くためには、ビジョン・ランゲージ・アクション(VLA)と全身制御の融合が不可欠である。しかし、既存の手法では、VLA推論効率の低下や、全身制御のための効果的な意味指導が欠如しているため、動的手足協調作業の不安定性が生じる。このギャップを埋めるために、ヒューマノイド全体制御のためのセマンティック・モーション・インテントガイド付き物理対応多脳VLAフレームワークを提案する。提案フレームワークの性能を評価するために, 一連の実験を行った。実験結果から,ヒューマノイドロボットの視覚言語誘導型全体調整が可能であった。

関連論文リスト

Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。 LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文参考訳（メタデータ） (2026-03-13T13:08:26Z)
TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration [3.4672098154671995]
ヒューマンロボットコラボレーション(HRC)では、ロボットは動的タスクの制約にオンラインで適応し、人間の意図を進化させなければならない。本稿では,トルクベース接触力推定とタスク対応時間畳み込みネットワーク(TCN)を利用した個別タスクレベルの意図を推定する統合フレームワークTATICを提案する。実験は意図認識において0.904 Macro-F1のスコアを獲得し、ハードウェアの検証に成功した。
論文参考訳（メタデータ） (2026-03-10T21:19:25Z)
ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文参考訳（メタデータ） (2026-03-10T04:19:43Z)
ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文参考訳（メタデータ） (2026-03-03T18:59:29Z)
UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots [27.794309591475326]
ヒューマノイドロボティクスにおける長年の目標は、人間レベルの柔軟性を持つ多様なマルチモーダル命令に従うことができる汎用エージェントの実現である。ここでは、微調整MLLMと因果ストリーミングパイプラインを統合した2段階のフレームワークであるUniActを用いて、500ms以下のレイテンシで、ヒューマノイドロボットがマルチモーダル命令を実行できることを示す。提案手法は, ゼロショット追尾における不完全な参照動作の成功率を19%向上させる。
論文参考訳（メタデータ） (2025-12-30T16:20:13Z)
MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。 MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文参考訳（メタデータ） (2025-12-17T12:59:41Z)
Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary [59.98573566227095]
本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
論文参考訳（メタデータ） (2025-11-28T08:11:24Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control [30.738592041595933]
ヒューマノイドロボットが単一ポリシーで多様な動的動作を学習できる統一された全身制御系VMSを提案する。我々のフレームワークは、局所的な動きの忠実度とグローバルな軌道の整合性のバランスをとるハイブリッドな追跡目標を統合している。シミュレーションと実世界の実験の両方においてVMSの特殊化を広範囲に検証し、ダイナミックスキルの正確な模倣、分長シーケンスでの安定した性能、そして目に見えない動作に対する強力な一般化を実証した。
論文参考訳（メタデータ） (2025-09-20T11:31:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。