論文の概要: GRIP: A Unified Framework for Grid-Based Relay and Co-Occurrence-Aware Planning in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2510.10865v1
- Date: Mon, 13 Oct 2025 00:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.948403
- Title: GRIP: A Unified Framework for Grid-Based Relay and Co-Occurrence-Aware Planning in Dynamic Environments
- Title(参考訳): GRIP: 動的環境におけるグリッドベースのリレーと共起型計画のための統一フレームワーク
- Authors: Ahmed Alanazi, Duy Ho, Yugyung Lee,
- Abstract要約: GRIP, Grid-based Relay with Intermediate Planning は,3つのスケーラブルなバリエーションを備えた,統一されたモジュール化されたフレームワークである。
GRIPは動的2Dグリッドの構築、オープンボキャブラリオブジェクトの接地、共起型シンボリックプランニング、ハイブリッドポリシーの実行を統合する。
AI2-THORとRobothorベンチマークの実証結果によると、GRIPは最大9.6%の成功率、パス効率の2倍以上の改善を実現している。
- 参考スコア(独自算出の注目度): 1.3543952438735405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots navigating dynamic, cluttered, and semantically complex environments must integrate perception, symbolic reasoning, and spatial planning to generalize across diverse layouts and object categories. Existing methods often rely on static priors or limited memory, constraining adaptability under partial observability and semantic ambiguity. We present GRIP, Grid-based Relay with Intermediate Planning, a unified, modular framework with three scalable variants: GRIP-L (Lightweight), optimized for symbolic navigation via semantic occupancy grids; GRIP-F (Full), supporting multi-hop anchor chaining and LLM-based introspection; and GRIP-R (Real-World), enabling physical robot deployment under perceptual uncertainty. GRIP integrates dynamic 2D grid construction, open-vocabulary object grounding, co-occurrence-aware symbolic planning, and hybrid policy execution using behavioral cloning, D* search, and grid-conditioned control. Empirical results on AI2-THOR and RoboTHOR benchmarks show that GRIP achieves up to 9.6% higher success rates and over $2\times$ improvement in path efficiency (SPL and SAE) on long-horizon tasks. Qualitative analyses reveal interpretable symbolic plans in ambiguous scenes. Real-world deployment on a Jetbot further validates GRIP's generalization under sensor noise and environmental variation. These results position GRIP as a robust, scalable, and explainable framework bridging simulation and real-world navigation.
- Abstract(参考訳): 動的な、散らばった、意味的に複雑な環境をナビゲートするロボットは、知覚、象徴的推論、空間計画を統合して、多様なレイアウトやオブジェクトカテゴリをまたいで一般化する必要がある。
既存のメソッドは静的なプリミティブや制限されたメモリに依存し、部分的な可観測性とセマンティックな曖昧さの下で適応性を制限する。
We present GRIP, Grid-based Relay with Intermediate Planning, a unified and modular framework with GRIP-L (Lightweight), optimized for symbolic navigation via semantic occupancy grids, GRIP-F (Full), supporting multi-hop anchor chaining and LLM-based introspection, and GRIP-R (Real-World), and GRIP-R (Real-World)。
GRIPは動的2Dグリッド構築、オープンボキャブラリオブジェクトグラウンド、共起認識シンボリックプランニング、行動クローン、D*検索、グリッド条件制御を用いたハイブリッドポリシー実行を統合している。
AI2-THORとRobothorベンチマークの実証結果によると、GRIPは9.6%高い成功率と2ドル以上の長期作業におけるパス効率の改善(SPLとSAE)を達成した。
質的な分析は曖昧な場面で解釈可能な象徴的計画を明らかにする。
Jetbot上の実世界展開は、センサーノイズと環境変動下でのGRIPの一般化をさらに検証する。
これらの結果は、GRIPを堅牢でスケーラブルで説明可能なフレームワークブリッジングシミュレーションと実世界のナビゲーションとして位置づけている。
関連論文リスト
- RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation [1.7508558850131373]
Vision-Language Navigation (VLN) は、シングルポイントパスフィンディングからより挑戦的なMulti-Goal VLNへと進化している。
RAGNavは意味論的推論と物理的構造の間のギャップを埋めるフレームワークである。
論文 参考訳(メタデータ) (2026-03-04T05:31:33Z) - HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation [54.325346533275074]
HeROは、階層的意味論を通して幾何学と意味論を結合する拡散ベースのポリシーである。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
論文 参考訳(メタデータ) (2026-02-21T12:29:10Z) - Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - Deep GraphRAG: A Balanced Approach to Hierarchical Retrieval and Adaptive Integration [11.655381195889428]
階層的検索と適応的統合のためのバランスの取れたアプローチを目的としたフレームワークであるDeep GraphRAGを提案する。
マクロ的コミュニティ間および微視的コミュニティ間コンテキスト関係を統合した階層的グローバル・ローカル検索戦略を導入する。
ビーム探索最適化された動的再ランクモジュールがこのプロセスを導出し、効率とグローバル包括性のバランスをとるために候補を継続的にフィルタリングする。
論文 参考訳(メタデータ) (2026-01-16T10:02:31Z) - Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation [0.0]
深部強化学習(HMP-DRL)によるハイブリッド運動計画
状態空間と報酬関数の両方に符号化されたチェックポイントのシーケンスを通じて、局所DRLポリシーに統合されたパスを生成するグラフベースのグローバルプランナを提案する。
社会的コンプライアンスを確保するため、地域プランナーは、周辺エージェントのセマンティックタイプに基づいて、安全マージンと罰則を動的に調整するエンティティ対応報酬構造を採用する。
論文 参考訳(メタデータ) (2025-12-31T05:58:57Z) - SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images [49.52402091341301]
現在のモデルは単純な単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオで表されると失敗する。
総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを紹介する。
また,SegEarth-R2 は RS における包括的言語誘導セグメンテーションのために設計されたMLLM アーキテクチャである。
論文 参考訳(メタデータ) (2025-12-23T03:10:17Z) - ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval [125.19156877994612]
生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する
我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。
具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
論文 参考訳(メタデータ) (2025-10-12T03:04:24Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [69.30586607892842]
我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。
GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
論文 参考訳(メタデータ) (2025-08-07T17:59:44Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。
LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。
これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model [12.096387853748938]
地上ロボット(AGR)は、監視や災害対応に広く利用されている。
現在のAGRナビゲーションシステムは、静的環境においてよく機能する。
しかし、これらのシステムは動的で厳しい閉塞シーンの課題に直面している。
これらの問題に対処するために,効率的なAGR-Plannerを用いたOccMambaを提案する。
論文 参考訳(メタデータ) (2024-08-20T07:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。