論文の概要: VISO-Grasp: Vision-Language Informed Spatial Object-centric 6-DoF Active View Planning and Grasping in Clutter and Invisibility
- arxiv url: http://arxiv.org/abs/2503.12609v1
- Date: Sun, 16 Mar 2025 18:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:13.126904
- Title: VISO-Grasp: Vision-Language Informed Spatial Object-centric 6-DoF Active View Planning and Grasping in Clutter and Invisibility
- Title(参考訳): VISO-Grasp:視覚言語インフォームド空間オブジェクト中心の6-DoFアクティブビュープランニングとクラッタと可視性
- Authors: Yitian Shi, Di Wen, Guanqi Chen, Edgar Welte, Sheng Liu, Kunyu Peng, Rainer Stiefelhagen, Rania Rayyes,
- Abstract要約: VISO-Graspは視覚言語によるインフォームドシステムで、厳しい環境下での把握のための可視性制約に対処する。
VISO-Graspは、目標指向のグリップにおいて87.5%の成功率を達成し、ベースラインを上回る最少のグリップの試みを達成している。
- 参考スコア(独自算出の注目度): 31.50489359729733
- License:
- Abstract: We propose VISO-Grasp, a novel vision-language-informed system designed to systematically address visibility constraints for grasping in severely occluded environments. By leveraging Foundation Models (FMs) for spatial reasoning and active view planning, our framework constructs and updates an instance-centric representation of spatial relationships, enhancing grasp success under challenging occlusions. Furthermore, this representation facilitates active Next-Best-View (NBV) planning and optimizes sequential grasping strategies when direct grasping is infeasible. Additionally, we introduce a multi-view uncertainty-driven grasp fusion mechanism that refines grasp confidence and directional uncertainty in real-time, ensuring robust and stable grasp execution. Extensive real-world experiments demonstrate that VISO-Grasp achieves a success rate of $87.5\%$ in target-oriented grasping with the fewest grasp attempts outperforming baselines. To the best of our knowledge, VISO-Grasp is the first unified framework integrating FMs into target-aware active view planning and 6-DoF grasping in environments with severe occlusions and entire invisibility constraints.
- Abstract(参考訳): 難易度の高い環境下での把握のための可視性制約を体系的に解決する新しい視覚言語インフォームドシステムであるVISO-Graspを提案する。
空間的推論とアクティブなビュープランニングにファンデーションモデル(FM)を活用することで、我々のフレームワークは、空間的関係のインスタンス中心の表現を構築し、更新し、挑戦的なオクルージョンの下での把握成功を向上する。
さらに、この表現は、アクティブなNext-Best-View(NBV)計画を促進し、直接把握が不可能な場合にシーケンシャルな把握戦略を最適化する。
さらに,多視点不確実性駆動型グリップ融合機構を導入し,グリップの信頼性と方向の不確実性をリアルタイムに改善し,堅牢かつ安定したグリップ実行を実現する。
VISO-Graspはターゲット指向のグリップにおいて87.5\%の成功率を達成し, ベースラインを上回り, 最少のグリップの試みを達成している。
我々の知る限り、VISO-GraspはFMをターゲット対応のアクティブなビュープランニングと6-DoFの把握に統合する最初の統合フレームワークです。
関連論文リスト
- Platform-Aware Mission Planning [50.56223680851687]
本稿では,PAMP(Platform-Aware Mission Planning)の問題を紹介する。
第1のベースラインアプローチはミッションレベルとプラットフォームレベル、第2のベースラインアプローチは抽象リファインメントループに基づいている。
提案手法の健全性と完全性を実証し,実験により検証する。
論文 参考訳(メタデータ) (2025-01-16T16:20:37Z) - A Black-Box Evaluation Framework for Semantic Robustness in Bird's Eye View Detection [24.737984789074094]
我々は,BEVモデルを騙すために3つの一般的な意味摂動を逆向きに最適化するロバストネス評価フレームワークを開発する。
セマンティック摂動を最適化することで生じる課題に対処するため、mAPメトリックを置き換えるスムーズな距離に基づく代理関数を設計する。
最近の10種類のBEVモデルのセマンティックロバスト性に関するベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-18T14:53:38Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Salient Sparse Visual Odometry With Pose-Only Supervision [45.450357610621985]
視覚計測(VO)は自律システムのナビゲーションに不可欠である。
従来のVOメソッドは、可変照明や動きのぼやけといった課題に対処する。
ディープラーニングベースのVOは、より適応性が高いが、新しい環境での一般化問題に直面する可能性がある。
本稿では,ポーズのみの監視を生かした新しいハイブリッド・ビジュアル・オドメトリー(VO)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-06T16:48:08Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Robust and Precise Facial Landmark Detection by Self-Calibrated Pose
Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。
より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。
自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文 参考訳(メタデータ) (2021-12-23T02:51:08Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。