論文の概要: BINDER: Instantly Adaptive Mobile Manipulation with Open-Vocabulary Commands
- arxiv url: http://arxiv.org/abs/2511.22364v1
- Date: Thu, 27 Nov 2025 12:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.547015
- Title: BINDER: Instantly Adaptive Mobile Manipulation with Open-Vocabulary Commands
- Title(参考訳): BINDER: オープン語彙コマンドによる即時適応型モバイル操作
- Authors: Seongwon Cho, Daechul Ahn, Donghyun Shin, Hyeonbeom Choi, San Kim, Jonghyun Choi,
- Abstract要約: BINDERは、継続的環境監視から戦略的計画を切り離す、二重プロセスフレームワークである。
2つのモジュールは補完的な役割を果たす。DRMは構造化された3Dシーンの更新で戦略的計画を実行し、IRMが関与するものをガイドする。
BINDERはSoTAベースラインよりも成功と効率を著しく向上させ、実世界の展開に有効であることを実証している。
- 参考スコア(独自算出の注目度): 22.562483208861078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary mobile manipulation (OVMM) requires robots to follow language instructions, navigate, and manipulate while updating their world representation under dynamic environmental changes. However, most prior approaches update their world representation only at discrete update points such as navigation targets, waypoints, or the end of an action step, leaving robots blind between updates and causing cascading failures: overlooked objects, late error detection, and delayed replanning. To address this limitation, we propose BINDER (Bridging INstant and DEliberative Reasoning), a dual process framework that decouples strategic planning from continuous environment monitoring. Specifically, BINDER integrates a Deliberative Response Module (DRM, a multimodal LLM for task planning) with an Instant Response Module (IRM, a VideoLLM for continuous monitoring). The two modules play complementary roles: the DRM performs strategic planning with structured 3D scene updates and guides what the IRM attends to, while the IRM analyzes video streams to update memory, correct ongoing actions, and trigger replanning when necessary. Through this bidirectional coordination, the modules address the trade off between maintaining awareness and avoiding costly updates, enabling robust adaptation under dynamic conditions. Evaluated in three real world environments with dynamic object placement, BINDER achieves substantially higher success and efficiency than SoTA baselines, demonstrating its effectiveness for real world deployment.
- Abstract(参考訳): オープン語彙移動操作(OVMM)では、動的環境変化の下で世界表現を更新しながら、ロボットが言語指示に従い、ナビゲートし、操作する必要がある。
しかしながら、ほとんどの以前のアプローチでは、ナビゲーションターゲットやウェイポイント、アクションステップの終了といった個別の更新ポイントでのみ、世界表現を更新する。
この制限に対処するため,BINDER(Bridging Instant and Deliberative Reasoning)を提案する。
具体的には、BINDERはReliberative Response Module (DRM、タスク計画のためのマルチモーダルLLM)とInstant Response Module (IRM、継続的監視のためのビデオLLM)を統合している。
DRMは構造化された3Dシーンのアップデートで戦略的計画を実行し、IRMはビデオストリームを分析してメモリを更新し、進行中のアクションを修正し、必要に応じて再計画を行う。
この双方向調整を通じて、モジュールは認識の維持とコストのかかる更新の回避の間のトレードオフに対処し、動的条件下で堅牢な適応を可能にする。
動的オブジェクト配置を持つ3つの現実世界環境において評価され、BINDERはSoTAベースラインよりも成功と効率が著しく高く、実世界の展開に有効であることを実証している。
関連論文リスト
- TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making [90.18833928208333]
Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN)は、複数のサブオンデマンドと明示的なタスク嗜好を含む長距離ナビゲーションのための新しいベンチマークである。
空間記憶のために,3次元点雲蓄積と2次元意味マッピングを組み合わせたMASMapを設計した。
本手法は,認識精度とナビゲーションの堅牢性の両方において,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-21T13:12:13Z) - Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents [0.0]
大規模言語モデル (LLMs) は、線形で非構造的な文脈に依存するため、多段階の相互作用に影響を及ぼす。
本稿では,既存のLCMを堅牢でリビジョン対応のエージェントに変換するモジュール型メモリコントローラであるTask Memory Engine (TME)を紹介する。
TMEは、フラットなコンテキストをグラフベースの構造に置き換え、一貫性のあるマルチターン推論をサポートする空間記憶フレームワークを実装している。
論文 参考訳(メタデータ) (2025-05-26T02:53:22Z) - Adaptive Interactive Navigation of Quadruped Robots using Large Language Models [14.14967096139099]
大規模言語モデル(LLM)を用いたタスク計画のための原始木を提案する。
動作計画のための多目的移動と相互作用行動を含む総合的なスキルライブラリを事前学習するために強化学習を採用する。
ツリー構造に統合されたリプランニングメカニズムにより、便利なノードの追加とプルーニングが可能になる。
論文 参考訳(メタデータ) (2025-03-29T02:17:52Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。