論文の概要: ADAPT: Adaptive Dual-projection Architecture for Perceptive Traversal
- arxiv url: http://arxiv.org/abs/2603.16328v1
- Date: Tue, 17 Mar 2026 10:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.901616
- Title: ADAPT: Adaptive Dual-projection Architecture for Perceptive Traversal
- Title(参考訳): ADAPT: 知覚的トラバーサルのための適応的なデュアルプロジェクションアーキテクチャ
- Authors: Shuo Shao, Tianchen Huang, Wei Gao, Shiwu Zhang,
- Abstract要約: ADAPTは、地形地形の水平標高マップと、走行可能な空間制約の垂直距離マップを用いて環境を表現する。
ボクセルベースのベースラインと比較すると、ADAPTは観察次元と計算オーバーヘッドを大幅に削減する。
これは、Unitree G1 Humanoidへのゼロショット転送を成功させる。
- 参考スコア(独自算出の注目度): 9.871259588683783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agile humanoid locomotion in complex 3D en- vironments requires balancing perceptual fidelity with com- putational efficiency, yet existing methods typically rely on rigid sensing configurations. We propose ADAPT (Adaptive dual-projection architecture for perceptive traversal), which represents the environment using a horizontal elevation map for terrain geometry and a vertical distance map for traversable- space constraints. ADAPT further treats its spatial sensing range as a learnable action, enabling the policy to expand its perceptual horizon during fast motion and contract it in cluttered scenes for finer local resolution. Compared with voxel-based baselines, ADAPT drastically reduces observation dimensionality and computational overhead while substantially accelerating training. Experimentally, it achieves successful zero-shot transfer to a Unitree G1 Humanoid and signifi- cantly outperforms fixed-range baselines, yielding highly robust traversal across diverse 3D environtmental challenges.
- Abstract(参考訳): 複雑な3D環境下でのアジャイルなヒューマノイドの移動は、知覚の忠実度とコンプットの効率のバランスを必要とする。
本研究では,地形地形の水平高度マップと空間制約の垂直距離マップを用いて環境を表現するADAPT(Adaptive dual-projection architecture for perceptive traversal)を提案する。
ADAPTはさらに、空間センシング範囲を学習可能なアクションとして扱い、高速動作中に知覚的地平線を拡大し、より微細な局所分解能のために散らばったシーンで収縮させることができる。
ボクセルベースラインと比較して、ADAPTは観察次元と計算オーバーヘッドを大幅に減らし、トレーニングを大幅に加速する。
実験では、Unitree G1 Humanoidへのゼロショット転送が成功し、シグニフィ-は固定範囲のベースラインをはるかに上回り、多様な3次元環境課題にまたがる非常に堅牢なトラバースをもたらす。
関連論文リスト
- Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance [17.295532380360992]
WorldForgeは3つの密結合モジュールからなるトレーニング不要の推論時間フレームワークである。
我々のフレームワークはプラグアンドプレイとモデル非依存であり、様々な3D/4Dタスクに適用可能である。
論文 参考訳(メタデータ) (2025-09-18T16:40:47Z) - Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-08T14:21:45Z) - Implicit 3D scene reconstruction using deep learning towards efficient collision understanding in autonomous driving [0.0]
本研究では,LiDARデータとディープニューラルネットワークを利用して静的符号付き距離関数(SDF)マップを構築する学習型3Dシーン再構築手法を開発した。
予備実験の結果,衝突検出性能は特に混雑・動環境において著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-18T18:42:04Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - 3DTTNet: Multimodal Fusion-Based 3D Traversable Terrain Modeling for Off-Road Environments [10.521569910467072]
オフロード環境は、自動運転車にとって重要な課題である。
本稿では,セマンティックシーンの完了によって,横断可能な領域認識を実現する。
3DTTNetと呼ばれる新しいマルチモーダル手法が提案されている。
論文 参考訳(メタデータ) (2024-12-11T08:36:36Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。