論文の概要: GRIP: A Unified Framework for Grid-Based Relay and Co-Occurrence-Aware Planning in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2510.10865v1
- Date: Mon, 13 Oct 2025 00:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.948403
- Title: GRIP: A Unified Framework for Grid-Based Relay and Co-Occurrence-Aware Planning in Dynamic Environments
- Title(参考訳): GRIP: 動的環境におけるグリッドベースのリレーと共起型計画のための統一フレームワーク
- Authors: Ahmed Alanazi, Duy Ho, Yugyung Lee,
- Abstract要約: GRIP, Grid-based Relay with Intermediate Planning は,3つのスケーラブルなバリエーションを備えた,統一されたモジュール化されたフレームワークである。
GRIPは動的2Dグリッドの構築、オープンボキャブラリオブジェクトの接地、共起型シンボリックプランニング、ハイブリッドポリシーの実行を統合する。
AI2-THORとRobothorベンチマークの実証結果によると、GRIPは最大9.6%の成功率、パス効率の2倍以上の改善を実現している。
- 参考スコア(独自算出の注目度): 1.3543952438735405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots navigating dynamic, cluttered, and semantically complex environments must integrate perception, symbolic reasoning, and spatial planning to generalize across diverse layouts and object categories. Existing methods often rely on static priors or limited memory, constraining adaptability under partial observability and semantic ambiguity. We present GRIP, Grid-based Relay with Intermediate Planning, a unified, modular framework with three scalable variants: GRIP-L (Lightweight), optimized for symbolic navigation via semantic occupancy grids; GRIP-F (Full), supporting multi-hop anchor chaining and LLM-based introspection; and GRIP-R (Real-World), enabling physical robot deployment under perceptual uncertainty. GRIP integrates dynamic 2D grid construction, open-vocabulary object grounding, co-occurrence-aware symbolic planning, and hybrid policy execution using behavioral cloning, D* search, and grid-conditioned control. Empirical results on AI2-THOR and RoboTHOR benchmarks show that GRIP achieves up to 9.6% higher success rates and over $2\times$ improvement in path efficiency (SPL and SAE) on long-horizon tasks. Qualitative analyses reveal interpretable symbolic plans in ambiguous scenes. Real-world deployment on a Jetbot further validates GRIP's generalization under sensor noise and environmental variation. These results position GRIP as a robust, scalable, and explainable framework bridging simulation and real-world navigation.
- Abstract(参考訳): 動的な、散らばった、意味的に複雑な環境をナビゲートするロボットは、知覚、象徴的推論、空間計画を統合して、多様なレイアウトやオブジェクトカテゴリをまたいで一般化する必要がある。
既存のメソッドは静的なプリミティブや制限されたメモリに依存し、部分的な可観測性とセマンティックな曖昧さの下で適応性を制限する。
We present GRIP, Grid-based Relay with Intermediate Planning, a unified and modular framework with GRIP-L (Lightweight), optimized for symbolic navigation via semantic occupancy grids, GRIP-F (Full), supporting multi-hop anchor chaining and LLM-based introspection, and GRIP-R (Real-World), and GRIP-R (Real-World)。
GRIPは動的2Dグリッド構築、オープンボキャブラリオブジェクトグラウンド、共起認識シンボリックプランニング、行動クローン、D*検索、グリッド条件制御を用いたハイブリッドポリシー実行を統合している。
AI2-THORとRobothorベンチマークの実証結果によると、GRIPは9.6%高い成功率と2ドル以上の長期作業におけるパス効率の改善(SPLとSAE)を達成した。
質的な分析は曖昧な場面で解釈可能な象徴的計画を明らかにする。
Jetbot上の実世界展開は、センサーノイズと環境変動下でのGRIPの一般化をさらに検証する。
これらの結果は、GRIPを堅牢でスケーラブルで説明可能なフレームワークブリッジングシミュレーションと実世界のナビゲーションとして位置づけている。
関連論文リスト
- Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。
LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。
これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model [12.096387853748938]
地上ロボット(AGR)は、監視や災害対応に広く利用されている。
現在のAGRナビゲーションシステムは、静的環境においてよく機能する。
しかし、これらのシステムは動的で厳しい閉塞シーンの課題に直面している。
これらの問題に対処するために,効率的なAGR-Plannerを用いたOccMambaを提案する。
論文 参考訳(メタデータ) (2024-08-20T07:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。