論文の概要: HSC-VLA: Hierarchical Scene-Clearing for Robust Bimanual Manipulation in Dense Clutter
- arxiv url: http://arxiv.org/abs/2603.07484v1
- Date: Sun, 08 Mar 2026 05:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.052476
- Title: HSC-VLA: Hierarchical Scene-Clearing for Robust Bimanual Manipulation in Dense Clutter
- Title(参考訳): HSC-VLA:高密度クラッタにおけるロバストなバイマニピュレーションのための階層的シーンクリーニング
- Authors: Zhen Liu, Xinyu Ning, Zhe Hu, XinXin Xie, Yitong Liu, Zhongzhu Pu,
- Abstract要約: HSC-VLAは階層的なフレームワークであり、低レベル、高周波数の感覚運動子実行から高レベルの視覚的意味論を分離する。
密に散らばったスーパーマーケット棚の実験では、高密度のクラッタの下でHSC-VLAが86.7%の集合的な成功を達成している。
- 参考スコア(独自算出の注目度): 8.30676926154535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Vision--Language--Action models often suffer from critical instruction-following failures in high-density manipulation environments, where task-irrelevant visual clutter dilutes attention, corrupts grounding, and substantially degrades performance in complex long-horizon scenarios. To overcome the representation bottleneck of monolithic end-to-end architectures, we propose HSC-VLA, a hierarchical framework that decouples high-level visual-semantic reasoning from low-level, high-frequency sensorimotor execution through an explicit scene-clearing abstraction. HSC-VLA employs a high-level Brain to decompose long-horizon tasks and to generate task-specific scene masks that preserve task-relevant geometry while suppressing distractors. The filtered observations are then passed to a low-level Cerebellum, a diffusion-based policy that performs bimanual manipulation using only mask-filtered vision and proprioception. Extensive experiments in densely cluttered supermarket shelves demonstrate that HSC-VLA achieves 86.7\% aggregate success under high-density clutter, surpassing the best monolithic baseline ($π_0$-Full FT at 34.3\%) by 52.4\%. HSC-VLA also exhibits strong long-horizon performance, reaching 72\% on clutter sorting and 66\% on restocking, demonstrating strong robustness and effective failure recovery in complex cluttered manipulation.
- Abstract(参考訳): 現代のビジョン-言語--アクションモデルは、タスク非関連の視覚的クラッタが注意を希釈し、座屈を悪化させ、複雑なロングホライゾンシナリオにおけるパフォーマンスを著しく低下させるような、高密度な操作環境において、重要な命令追従障害に悩まされることが多い。
モノリシックなエンド・ツー・エンドアーキテクチャの表現ボトルネックを克服するために,低レベル,高周波数のセンタモレータによる高次視覚意味推論を明示的なシーンクリーニング抽象化によって分離する階層型フレームワークであるHSC-VLAを提案する。
HSC-VLAは高レベルのBrainを用いて、長距離タスクを分解し、タスク関連幾何を保存するタスク固有のシーンマスクを生成する。
フィルターされた観察は、低レベルの小脳に渡される。これは拡散に基づくポリシーで、マスクフィルターされた視覚とプロプレセプションのみを使用してバイマン的操作を行う。
HSC-VLAは高密度クラッタで86.7 %の集合的成功を達成し、最高のモノリシックベースライン(π_0$-Full FT=34.3 %)を52.4 %超えた。
HSC-VLAはまた、強い長距離性能を示し、クラッタソートでは72\%、リストックでは66\%に達し、複雑なクラッタ操作では強い堅牢性と効果的な障害回復を示す。
関連論文リスト
- Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation [2.3099144596725565]
Concept-Gated Visual Distillation (CGVD) は、Vision-Language-Action (VLA) ポリシーを安定化するトレーニングフリーで、モデルに依存しない推論フレームワークである。
CGVDは、命令を安全かつ邪魔なセットにパースすることで動作し、2層ターゲットリファインメントプロセスを利用する。
本手法は, 乱雑な操作作業において, 最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-11T02:21:02Z) - Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation [5.339854280045898]
Critic in the Loopは動的VLM-Expertスケジューリングによって駆動される適応的階層型フレームワークである。
中心となるのは、グローバル推論のためのVLM脳、リアクティブ実行のためのVLA小脳、軽量な視覚的批判を含む、バイオニックなTri-Systemアーキテクチャである。
我々のアーキテクチャは、人間にインスパイアされたルールをシームレスに統合し、無限の再試行ループを直感的に破る。
論文 参考訳(メタデータ) (2026-03-05T13:55:33Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Restoring Vision in Hazy Weather with Hierarchical Contrastive Learning [53.85892601302974]
階層的コントラストデハージング(HCD)という,効果的な画像デハージング手法を提案する。
HCDは階層的脱ハージングネットワーク(HDN)と新しい階層的コントラスト損失(HCL)から構成される
論文 参考訳(メタデータ) (2022-12-22T03:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。