論文の概要: Collision-Free Humanoid Traversal in Cluttered Indoor Scenes
- arxiv url: http://arxiv.org/abs/2601.16035v2
- Date: Fri, 23 Jan 2026 14:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.906092
- Title: Collision-Free Humanoid Traversal in Cluttered Indoor Scenes
- Title(参考訳): 室内空間における衝突のないヒューマノイドトラバーサル
- Authors: Han Xue, Sikai Liang, Zhikai Zhang, Zicheng Zeng, Yun Liu, Yunrui Lian, Jilong Wang, Qingtao Liu, Xuesong Shi, Li Yi,
- Abstract要約: 衝突のない運動方向としてヒューマノイドと障害物の関係を符号化するヒューマノイド電位場(HumanoidPF)を提案する。
また,リアルな3次元屋内シーンと手続き的に合成された障害物を組み込んだハイブリッドシーン生成手法を提案する。
我々は、ユーザーがワンクリックで、散らばった屋内シーンでヒューマノイドに移動を指示できる遠隔操作システムを開発した。
- 参考スコア(独自算出の注目度): 15.479452378419778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of collision-free humanoid traversal in cluttered indoor scenes, such as hurdling over objects scattered on the floor, crouching under low-hanging obstacles, or squeezing through narrow passages. To achieve this goal, the humanoid needs to map its perception of surrounding obstacles with diverse spatial layouts and geometries to the corresponding traversal skills. However, the lack of an effective representation that captures humanoid-obstacle relationships during collision avoidance makes directly learning such mappings difficult. We therefore propose Humanoid Potential Field (HumanoidPF), which encodes these relationships as collision-free motion directions, significantly facilitating RL-based traversal skill learning. We also find that HumanoidPF exhibits a surprisingly negligible sim-to-real gap as a perceptual representation. To further enable generalizable traversal skills through diverse and challenging cluttered indoor scenes, we further propose a hybrid scene generation method, incorporating crops of realistic 3D indoor scenes and procedurally synthesized obstacles. We successfully transfer our policy to the real world and develop a teleoperation system where users could command the humanoid to traverse in cluttered indoor scenes with just a single click. Extensive experiments are conducted in both simulation and the real world to validate the effectiveness of our method. Demos and code can be found in our website: https://axian12138.github.io/CAT/.
- Abstract(参考訳): 本研究では,床に散らばった物体を移動させたり,低張力な障害物の下でしゃがんだり,狭い通路をさまようりするなど,乱雑な屋内シーンにおける衝突のないヒューマノイド軌道の問題点を考察する。
この目的を達成するために、ヒューマノイドは周囲の障害物に対する認識を多様な空間配置とジオメトリーでマッピングする必要がある。
しかし、衝突回避時にヒューマノイドと障害物の関係を捉える効果的な表現が欠如しているため、そのようなマッピングを直接学習することは困難である。
そこで,HumanoidPF(Humanoid potential Field)を提案する。
また、HumanoidPFは驚くほど無視可能なsim-to-realギャップを知覚的表現として示している。
さらに,多様で難易度の高い屋内シーンを生かし,現実的な3次元屋内シーンと手続き的に合成された障害物を組み込んだハイブリッドシーン生成手法を提案する。
我々は、私たちのポリシーを現実世界に転送し、ユーザーがワンクリックで、散らばった屋内シーンでヒューマノイドに移動を指示できる遠隔操作システムを開発した。
本手法の有効性を検証するため,シミュレーションと実世界の両方で大規模な実験を行った。
デモとコードは、私たちのWebサイト(https://axian12138.github.io/CAT/)で見ることができる。
関連論文リスト
- EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文 参考訳(メタデータ) (2026-01-27T10:10:55Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。