Fugu-MT 論文翻訳(概要): CReF: Cross-modal and Recurrent Fusion for Depth-conditioned Humanoid Locomotion

論文の概要: CReF: Cross-modal and Recurrent Fusion for Depth-conditioned Humanoid Locomotion

arxiv url: http://arxiv.org/abs/2603.29452v2
Date: Wed, 01 Apr 2026 02:09:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.620901
Title: CReF: Cross-modal and Recurrent Fusion for Depth-conditioned Humanoid Locomotion
Title（参考訳）: CReF:深達度条件付きヒューマノイドロコモーションに対するクロスモーダルおよびリカレントフュージョン
Authors: Yuan Hao, Ruiqi Yu, Shixin Luo, Guoteng Zhang, Jun Wu, Qiuguo Zhu,
Abstract要約: 本稿では,CreF (Cross-modal and Recurrent Fusion) を提案する。 CReFは、明示的な幾何学的中間体を使わずに、生の前方深度から直接移動関連特徴を学習する。
参考スコア（独自算出の注目度）: 6.2747272941647045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stable traversal over geometrically complex terrain increasingly requires exteroceptive perception, yet prior perceptive humanoid locomotion methods often remain tied to explicit geometric abstractions, either by mediating control through robot-centric 2.5D terrain representations or by shaping depth learning with auxiliary geometry-related targets. Such designs inherit the representational bias of the intermediate or supervisory target and can be restrictive for vertical structures, perforated obstacles, and complex real-world clutter. We propose CReF (Cross-modal and Recurrent Fusion), a single-stage depth-conditioned humanoid locomotion framework that learns locomotion-relevant features directly from raw forward-facing depth without explicit geometric intermediates. CReF couples proprioception and depth tokens through proprioception-queried cross-modal attention, fuses the resulting representation with a gated residual fusion block, and performs temporal integration with a Gated Recurrent Unit (GRU) regulated by a highway-style output gate for state-dependent blending of recurrent and feedforward features. To further improve terrain interaction, we introduce a terrain-aware foothold placement reward that extracts supportable foothold candidates from foot-end point-cloud samples and rewards touchdown locations that lie close to the nearest supportable candidate. Experiments in simulation and on a physical humanoid demonstrate robust traversal over diverse terrains and effective zero-shot transfer to real-world scenes containing handrails, hollow pallet assemblies, severe reflective interference, and visually cluttered outdoor surroundings.
Abstract（参考訳）: 幾何学的に複雑な地形上の安定な移動は、外感的な知覚を必要とするが、それ以前の知覚的なヒューマノイドの移動法は、ロボット中心の2.5D地形表現による制御を仲介するか、補助的な幾何学的目標による深度学習を形作ることによって、明示的な幾何学的抽象に結びついていることが多い。このような設計は、中間的あるいは監督的対象の表現バイアスを継承し、垂直構造、穴を開けた障害物、複雑な現実世界のクラッタに制限を与えることができる。 CReF(Cross-modal and Recurrent Fusion)は,一段階の深度条件付きヒューマノイド移動フレームワークで,鮮明な幾何学的中間を伴わずに生の前方深度から移動関連特徴を直接学習する。 CReFは、プロリオセプションと奥行きトークンを、プロリオセプションによってクエリされたクロスモーダルな注意を通して結合し、ゲートされた残留核融合ブロックで結果の表現を融合させ、リカレントとフィードフォワードの状態を依存したブレンディングのために、ハイウェイスタイルの出力ゲートによって規制されたゲーテッド・リカレント・ユニット(GRU)と時間的統合を行う。地形間相互作用をさらに改善するため,フットエンドのポイントクラウドサンプルから支持可能な足場候補を抽出し,最も支持可能な候補に近いタッチダウン位置を報奨する地形対応足場配置報酬を導入する。シミュレーションおよび物理的ヒューマノイドを用いた実験では、多様な地形を横断する堅牢な移動と、手すり、中空のパレット集合体、激しい反射干渉、視覚的に散らばった屋外環境を含む現実のシーンへの効果的なゼロショット移動が示されている。

関連論文リスト

PRIOR: Perceptive Learning for Humanoid Locomotion with Reference Gait Priors [12.48639232018629]
PRIORはIsaac Lab上に構築された効率的で再現可能なフレームワークである。本研究では,人間的な歩行と頑健な地形トラバースを実現する枠組みを提案する。トレーニングパイプラインやパラメトリック歩行生成器,評価ベンチマークなどを含む,完全なPRIORフレームワークをオープンソースとして公開します。
論文参考訳（メタデータ） (2026-03-19T14:42:07Z)
GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion [17.719701533574412]
GeoLocoは、凍結されたスケール対応ビジュアルファウンデーションモデル(VFM)の強力な幾何学的先行情報を活用することにより、モノクル画像を高次元の潜伏表現として概念化する GeoLocoは、Unitree G1ヒューマノイドへの堅牢なゼロショット転送を実現し、挑戦的な地形の交渉に成功している。
論文参考訳（メタデータ） (2026-03-08T13:18:27Z)
Vision-Guided MPPI for Agile Drone Racing: Navigating Arbitrary Gate Poses via Neural Signed Distance Fields [8.66703842496129]
ドローンレースには、極端なアジリティの下での認識、計画、制御の緊密な結合が必要です。近年のアプローチは、事前計算された空間基準軌道や明示的な6-DoFゲートポーズ推定に依存している。そこで我々は,任意の配置と配向ゲートを介して,参照不要のアジャイル飛行を可能にするビジョンガイド付き最適制御フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-07T13:18:07Z)
MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文参考訳（メタデータ） (2026-02-17T17:09:45Z)
Now You See That: Learning End-to-End Humanoid Locomotion from Raw Pixels [1.3015553594945661]
視覚駆動型ヒューマノイド移動のためのエンドツーエンドフレームワークを提案する。頑健なsim-to-real転送を実現するため,高忠実度深度センサシミュレーションを開発した。本稿では,遅延空間アライメントと雑音不変の補助タスクを組み合わせた視覚的行動蒸留手法を提案する。
論文参考訳（メタデータ） (2026-02-06T04:34:20Z)
START: Traversing Sparse Footholds with Terrain Reconstruction [11.632418196552324]
我々は,高度にスパースな足場でアジャイルで安定した移動を可能にする,単段階学習フレームワークSTARTを提案する。 STARTは、ローコストのオンボードビジョンとプロプレセプションのみを活用して、局所的な地形の高度マップを正確に再構築する。実験結果から,STARTは実世界の様々なシナリオにまたがるゼロショット転送を実現することが示された。
論文参考訳（メタデータ） (2025-12-15T10:02:41Z)
Gait-Adaptive Perceptive Humanoid Locomotion with Real-Time Under-Base Terrain Reconstruction [86.53248703859718]
本研究では,地形認識,歩行制御,全身制御を一つの強化学習ポリシーにマージする知覚的移動フレームワークを提案する。 31-DoF、1.65mのヒューマノイドロボットによる実験は、シミュレーションと実世界の両方で堅牢な移動を実証している。
論文参考訳（メタデータ） (2025-12-08T11:42:41Z)
HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文参考訳（メタデータ） (2025-06-02T12:08:08Z)
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-10-31T06:11:23Z)
Aligning Silhouette Topology for Self-Adaptive 3D Human Pose Recovery [70.66865453410958]
アーティキュレーション中心の2D/3Dポーズ監視は、既存の多くの人間のポーズ推定技術においてコアトレーニング目標を形成する。本稿では,ソース学習モデルベース回帰器を適応させるために,シルエット監視のみに依存する新しいフレームワークを提案する。我々は、トポロジカル・スケルトン表現を生シルエットから切り離すために、一連の畳み込みに優しい空間変換を開発する。
論文参考訳（メタデータ） (2022-04-04T06:58:15Z)
Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文参考訳（メタデータ） (2020-07-28T07:34:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。