論文の概要: Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2511.06240v1
- Date: Sun, 09 Nov 2025 05:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.834173
- Title: Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation
- Title(参考訳): オープンボキャブラリ移動マニピュレーションにおけるベースプレースメントのためのアフォーマンスガイド付き粗結合探索
- Authors: Tzu-Jung Lin, Jia-Fong Yeh, Hung-Ting Su, Chung-Yi Lin, Yi-Ting Chen, Winston H. Hsu,
- Abstract要約: Affordance-Guided Coarse-to-Fine Explorationは、幾何学的実現性を備えた視覚言語モデルからの意味的理解を統合する。
我々のシステムは85%の成功率を実現し、古典的幾何学的プランナーやVLMに基づく手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 30.86820285729615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In open-vocabulary mobile manipulation (OVMM), task success often hinges on the selection of an appropriate base placement for the robot. Existing approaches typically navigate to proximity-based regions without considering affordances, resulting in frequent manipulation failures. We propose Affordance-Guided Coarse-to-Fine Exploration, a zero-shot framework for base placement that integrates semantic understanding from vision-language models (VLMs) with geometric feasibility through an iterative optimization process. Our method constructs cross-modal representations, namely Affordance RGB and Obstacle Map+, to align semantics with spatial context. This enables reasoning that extends beyond the egocentric limitations of RGB perception. To ensure interaction is guided by task-relevant affordances, we leverage coarse semantic priors from VLMs to guide the search toward task-relevant regions and refine placements with geometric constraints, thereby reducing the risk of convergence to local optima. Evaluated on five diverse open-vocabulary mobile manipulation tasks, our system achieves an 85% success rate, significantly outperforming classical geometric planners and VLM-based methods. This demonstrates the promise of affordance-aware and multimodal reasoning for generalizable, instruction-conditioned planning in OVMM.
- Abstract(参考訳): オープン語彙移動操作(OVMM)では、タスクの成功はしばしば、ロボットの適切なベース配置の選択に影響を及ぼす。
既存のアプローチは通常、余裕を考慮せずに近接ベースの領域に移動し、頻繁に操作が失敗する。
Affordance-Guided Coarse-to-Fine Explorationは,視覚言語モデル(VLM)からの意味的理解と,反復的最適化プロセスによる幾何学的実現性を統合する,ベースプレースメントのためのゼロショットフレームワークである。
提案手法は,空間的コンテキストにセマンティクスを整合させるために,Affordance RGB と Obstacle Map+ というクロスモーダル表現を構築する。
これにより、RGB知覚のエゴセントリックな限界を超える推論が可能になる。
タスク関連価格によるインタラクションのガイドを実現するため,VLMからの粗いセマンティック先行情報を活用し,タスク関連領域の探索を指導し,幾何学的制約を伴って配置を洗練することにより,局所最適化への収束のリスクを低減する。
オープン語彙のモバイル操作タスクを5種類評価し,85%の成功率を実現し,古典的幾何学的プランナやVLMに基づく手法を著しく上回る結果を得た。
このことは、OVMMにおける一般化可能な、命令条件付き計画のための、アベイランス・アウェアとマルチモーダル推論の可能性を実証している。
関連論文リスト
- VLM-Guided Visual Place Recognition for Planet-Scale Geo-Localization [24.433604332415204]
本稿では,視覚言語モデルと視覚的位置認識の強みを融合した,新しいハイブリッドなジオローカライゼーションフレームワークを提案する。
我々は,複数のジオローカライゼーションベンチマークに対するアプローチを評価し,従来手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T12:23:03Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding [16.784045122994506]
本稿では,最近の行動の誤りを正すために,利用ポリシーをデプロイする階層的なナビゲーション手法を提案する。
本研究では,エージェントをローカルな目標に向かって移動させるエクスプロイトポリシーが,エージェントを以前訪問した状態に移動させる手法よりも優れていることを示す。
本稿では,検出対象のカテゴリワイド2次元フーリエ変換を行う,シーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
論文 参考訳(メタデータ) (2023-03-07T17:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。