論文の概要: VISO-Grasp: Vision-Language Informed Spatial Object-centric 6-DoF Active View Planning and Grasping in Clutter and Invisibility
- arxiv url: http://arxiv.org/abs/2503.12609v2
- Date: Wed, 06 Aug 2025 10:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:08.089864
- Title: VISO-Grasp: Vision-Language Informed Spatial Object-centric 6-DoF Active View Planning and Grasping in Clutter and Invisibility
- Title(参考訳): VISO-Grasp:視覚言語インフォームド空間オブジェクト中心の6-DoFアクティブビュープランニングとクラッタと可視性
- Authors: Yitian Shi, Di Wen, Guanqi Chen, Edgar Welte, Sheng Liu, Kunyu Peng, Rainer Stiefelhagen, Rania Rayyes,
- Abstract要約: VISO-Grasp(VISO-Grasp)は、厳しい環境下での把握のための可視性制約に対処するために設計された視覚インフォームドシステムである。
マルチビュー不確実性駆動型グリップ融合機構を導入し, グリップ信頼度と方向の不確実性をリアルタイムに改善する。
VISO-Graspは、目標指向のグリップにおいて87.5%の成功率を達成し、ベースラインを上回る最少のグリップの試みを達成している。
- 参考スコア(独自算出の注目度): 31.50489359729733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose VISO-Grasp, a novel vision-language-informed system designed to systematically address visibility constraints for grasping in severely occluded environments. By leveraging Foundation Models (FMs) for spatial reasoning and active view planning, our framework constructs and updates an instance-centric representation of spatial relationships, enhancing grasp success under challenging occlusions. Furthermore, this representation facilitates active Next-Best-View (NBV) planning and optimizes sequential grasping strategies when direct grasping is infeasible. Additionally, we introduce a multi-view uncertainty-driven grasp fusion mechanism that refines grasp confidence and directional uncertainty in real-time, ensuring robust and stable grasp execution. Extensive real-world experiments demonstrate that VISO-Grasp achieves a success rate of $87.5\%$ in target-oriented grasping with the fewest grasp attempts outperforming baselines. To the best of our knowledge, VISO-Grasp is the first unified framework integrating FMs into target-aware active view planning and 6-DoF grasping in environments with severe occlusions and entire invisibility constraints. Code is available at: https://github.com/YitianShi/vMF-Contact
- Abstract(参考訳): 難易度の高い環境下での把握のための可視性制約を体系的に解決する新しい視覚言語インフォームドシステムであるVISO-Graspを提案する。
空間的推論とアクティブなビュープランニングにファンデーションモデル(FM)を活用することで、我々のフレームワークは、空間的関係のインスタンス中心の表現を構築し、更新し、挑戦的なオクルージョンの下での把握成功を向上する。
さらに、この表現は、アクティブなNext-Best-View(NBV)計画を促進し、直接把握が不可能な場合にシーケンシャルな把握戦略を最適化する。
さらに,多視点不確実性駆動型グリップ融合機構を導入し,グリップの信頼性と方向の不確実性をリアルタイムに改善し,堅牢かつ安定したグリップ実行を実現する。
VISO-Graspはターゲット指向のグリップにおいて87.5\%の成功率を達成し, ベースラインを上回り, 最少のグリップの試みを達成している。
我々の知る限り、VISO-GraspはFMをターゲット対応のアクティブなビュープランニングと6-DoFの把握に統合する最初の統合フレームワークです。
コードは、https://github.com/YitianShi/vMF-Contactで入手できる。
関連論文リスト
- VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - World-aware Planning Narratives Enhance Large Vision-Language Model Planner [48.97399087613431]
LVLM(Large Vision-Language Models)は、複雑なシナリオに苦しむ計画タスクを具体化する。
我々は,LVLMを包括的環境理解に注入するフレームワークであるワールド・アウェア・プランニング・ナラティブ・エンハンスメント(WAP)を提案する。
論文 参考訳(メタデータ) (2025-06-26T13:20:55Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [83.21177515180564]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - Zero-Shot Iterative Formalization and Planning in Partially Observable Environments [11.066479432278301]
我々はPDDL表現をゼロショットで形式化し、計画し、成長し、洗練するフレームワークであるPDDLego+を提案する。
PDDLego+は目標達成を達成し,問題複雑性に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-19T13:58:15Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators [34.28879194786174]
オープンワールド環境における汎用的なロボット移動操作は、長い地平線、複雑な目標、部分的な観測可能性といった大きな課題を生んでいる。
これらの課題に対処するための有望なアプローチは、タスクプランナーがこれらのスキルをシーケンスして、構造化言語で指定された目標を達成する、パラメータ化されたスキルのライブラリを計画することである。
本稿では、視覚言語モデルを利用して不確実性を推定し、シンボリックグラウンド化を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-04T07:48:53Z) - GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback [23.48582504679409]
最先端の政策モデルでさえ不安定な把握行動を示すことが多い。
視覚言語モデル誘導フィードバックによるグルーピング性能の向上を目的とした,プラグイン・アンド・プレイモジュールであるGraspCorrectを紹介する。
論文 参考訳(メタデータ) (2025-03-19T09:25:32Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - STAR: A Foundation Model-driven Framework for Robust Task Planning and Failure Recovery in Robotic Systems [5.426894918217948]
STAR(Smart Task Adaptation and Recovery)は、ファンデーションモデル(FM)と動的に拡張された知識グラフ(KG)を相乗化する新しいフレームワークである。
FMは目覚ましい一般化と文脈推論を提供するが、その制限は信頼性を損なう。
その結果,STARは86%のタスク計画精度と78%のリカバリ成功率を示し,ベースライン法よりも有意な改善を示した。
論文 参考訳(メタデータ) (2025-03-08T05:05:21Z) - Platform-Aware Mission Planning [50.56223680851687]
本稿では,PAMP(Platform-Aware Mission Planning)の問題を紹介する。
第1のベースラインアプローチはミッションレベルとプラットフォームレベル、第2のベースラインアプローチは抽象リファインメントループに基づいている。
提案手法の健全性と完全性を実証し,実験により検証する。
論文 参考訳(メタデータ) (2025-01-16T16:20:37Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Salient Sparse Visual Odometry With Pose-Only Supervision [45.450357610621985]
視覚計測(VO)は自律システムのナビゲーションに不可欠である。
従来のVOメソッドは、可変照明や動きのぼやけといった課題に対処する。
ディープラーニングベースのVOは、より適応性が高いが、新しい環境での一般化問題に直面する可能性がある。
本稿では,ポーズのみの監視を生かした新しいハイブリッド・ビジュアル・オドメトリー(VO)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-06T16:48:08Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Robust and Precise Facial Landmark Detection by Self-Calibrated Pose
Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。
より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。
自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文 参考訳(メタデータ) (2021-12-23T02:51:08Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。