論文の概要: STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory
- arxiv url: http://arxiv.org/abs/2602.09255v1
- Date: Mon, 09 Feb 2026 22:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.272758
- Title: STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory
- Title(参考訳): STaR:長距離マルチモーダルロボットメモリのためのスケーラブルなタスク記述型検索
- Authors: Mingfeng Yuan, Hao Zhang, Mahan Mohammadi, Runhao Li, Jinjun Shan, Steven L. Waslander,
- Abstract要約: 本稿では,タスクに依存しないマルチモーダル長期メモリSTaRを提案する。
我々は,NaVQAとWH-VQAでSTaRを評価した。
さらに、屋内と屋外の両方の環境で、本物のハスキーの車輪付きロボットにSTaRを配置する。
- 参考スコア(独自算出の注目度): 16.76678779219906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile robots are often deployed over long durations in diverse open, dynamic scenes, including indoor setting such as warehouses and manufacturing facilities, and outdoor settings such as agricultural and roadway operations. A core challenge is to build a scalable long-horizon memory that supports an agentic workflow for planning, retrieval, and reasoning over open-ended instructions at variable granularity, while producing precise, actionable answers for navigation. We present STaR, an agentic reasoning framework that (i) constructs a task-agnostic, multimodal long-term memory that generalizes to unseen queries while preserving fine-grained environmental semantics (object attributes, spatial relations, and dynamic events), and (ii) introduces a Scalable TaskConditioned Retrieval algorithm based on the Information Bottleneck principle to extract from long-term memory a compact, non-redundant, information-rich set of candidate memories for contextual reasoning. We evaluate STaR on NaVQA (mixed indoor/outdoor campus scenes) and WH-VQA, a customized warehouse benchmark with many visually similar objects built with Isaac Sim, emphasizing contextual reasoning. Across the two datasets, STaR consistently outperforms strong baselines, achieving higher success rates and markedly lower spatial error. We further deploy STaR on a real Husky wheeled robot in both indoor and outdoor environments, demonstrating robust longhorizon reasoning, scalability, and practical utility.
- Abstract(参考訳): 移動ロボットは、倉庫や製造施設などの屋内環境や、農業や道路などの屋外環境など、様々なオープンなダイナミックな場面で長時間展開されることが多い。
キーとなる課題はスケーラブルなロングホライズンメモリを作ることで、計画、検索、さまざまな粒度でのオープンエンド命令の推論のためのエージェントワークフローをサポートし、ナビゲーションのための正確で実用的な回答を生成する。
エージェント推論フレームワークSTaRを提案する。
一 きめ細かな環境意味論(対象属性、空間関係、動的事象)を維持しつつ、目に見えないクエリに一般化するタスク非依存のマルチモーダル長期記憶を構築すること。
(II) 長期記憶からコンテキスト推論のためのコンパクトで非冗長で情報豊富な候補記憶集合を抽出するために,Information Bottleneck原則に基づくスケーラブルなタスクコンディション検索アルゴリズムを導入する。
我々は,NaVQA上のSTaR(屋内/屋外キャンパスの混在シーン)と,アイザック・シム(Isaac Sim)によって構築された多くの視覚的に類似したオブジェクトを備えた,カスタマイズされた倉庫ベンチマークWH-VQAを評価し,文脈的推論を強調した。
2つのデータセット全体で、STaRは強いベースラインを一貫して上回り、より高い成功率と空間誤差を著しく低くする。
我々はさらに、屋内および屋外の両方で本物のハスキー車輪付きロボットにSTaRを配置し、堅牢な長距離推論、スケーラビリティ、実用性を実証する。
関連論文リスト
- AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。