論文の概要: Obstruction reasoning for robotic grasping
- arxiv url: http://arxiv.org/abs/2511.23186v1
- Date: Fri, 28 Nov 2025 13:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.914011
- Title: Obstruction reasoning for robotic grasping
- Title(参考訳): ロボットグルーピングにおける障害推論
- Authors: Runyu Jiao, Matteo Bortolon, Francesco Giuliari, Alice Fasoli, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi,
- Abstract要約: 障害推論が可能な学習型視覚言語モデルであるUNOGraspを提案する。
対象対象物から生じる障害経路に基づいて, 新たな多段階推論法を考案する。
我々は,MetaGraspNetV2に基づいて,トレーニングとベンチマークの両方のための大規模データセットであるUNOBenchを構築した。
- 参考スコア(独自算出の注目度): 18.39507400925748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successful robotic grasping in cluttered environments not only requires a model to visually ground a target object but also to reason about obstructions that must be cleared beforehand. While current vision-language embodied reasoning models show emergent spatial understanding, they remain limited in terms of obstruction reasoning and accessibility planning. To bridge this gap, we present UNOGrasp, a learning-based vision-language model capable of performing visually-grounded obstruction reasoning to infer the sequence of actions needed to unobstruct the path and grasp the target object. We devise a novel multi-step reasoning process based on obstruction paths originated by the target object. We anchor each reasoning step with obstruction-aware visual cues to incentivize reasoning capability. UNOGrasp combines supervised and reinforcement finetuning through verifiable reasoning rewards. Moreover, we construct UNOBench, a large-scale dataset for both training and benchmarking, based on MetaGraspNetV2, with over 100k obstruction paths annotated by humans with obstruction ratios, contact points, and natural-language instructions. Extensive experiments and real-robot evaluations show that UNOGrasp significantly improves obstruction reasoning and grasp success across both synthetic and real-world environments, outperforming generalist and proprietary alternatives. Project website: https://tev-fbk.github.io/UnoGrasp/.
- Abstract(参考訳): 散らばった環境でのロボットグリップの成功には、対象物を視覚的にグラウンドするモデルだけでなく、事前にクリアしなければならない障害物を推論するモデルが必要になります。
現在の視覚言語具体的推論モデルでは空間的理解が創発的であるが、障害推論やアクセシビリティ計画の観点からは限定的である。
このギャップを埋めるために,学習に基づく視覚言語モデルであるUNOGraspを提案する。
対象対象物から生じる障害経路に基づいて, 新たな多段階推論法を考案する。
我々は、各推論ステップに障害を意識した視覚的手がかりを固定し、推論能力を高める。
UNOGraspは、検証可能な推論報酬を通じて教師付きおよび強化された微調整を組み合わせる。
さらに,MetaGraspNetV2に基づくトレーニングとベンチマークの両方のための大規模データセットであるUNOBenchを構築した。
広汎な実験と実ロボット評価により、UNOGraspは、合成環境と実環境の両方で障害推論と成功の把握を著しく改善し、ジェネラリストやプロプライエタリな代替品よりも優れていることが示された。
プロジェクトWebサイト: https://tev-fbk.github.io/UnoGrasp/。
関連論文リスト
- Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation [67.98487725287835]
VCoT-Graspは、視覚的連鎖推論を取り入れたエンドツーエンドの把握基盤モデルであり、把握生成のための視覚的理解を強化する。
トレーニングのために、我々は167Kの合成画像と1.36Mのグリップを含む大規模なデータセットVCoT-GraspSetを洗練、導入した。
本手法は, 達成率を大幅に向上させ, 未知の物体, 背景, 邪魔者に効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-07T11:50:26Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [18.410329897882658]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
DexGraspVLAは,言語誘導型汎用デキスタラスグルーピングにおける堅牢な一般化のための階層的フレームワークである。
論文 参考訳(メタデータ) (2025-02-28T09:57:20Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。