論文の概要: SAGA: Open-World Mobile Manipulation via Structured Affordance Grounding
- arxiv url: http://arxiv.org/abs/2512.12842v1
- Date: Sun, 14 Dec 2025 21:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.469229
- Title: SAGA: Open-World Mobile Manipulation via Structured Affordance Grounding
- Title(参考訳): SAGA: 構造化Affordance Groundingによるオープンワールドモバイル操作
- Authors: Kuan Fang, Yuxin Chen, Xinghao Zhu, Farzad Niroui, Lingfeng Sun, Jiuguang Wang,
- Abstract要約: SAGAは視覚運動制御のための汎用的で適応的なフレームワークである。
様々な環境、タスクの目的、ユーザ仕様をまたいで一般化することができる。
言語命令、選択されたポイント、サンプルデモなど、さまざまな形式で指定されたタスクを解決できる。
- 参考スコア(独自算出の注目度): 17.694566254714676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SAGA, a versatile and adaptive framework for visuomotor control that can generalize across various environments, task objectives, and user specifications. To efficiently learn such capability, our key idea is to disentangle high-level semantic intent from low-level visuomotor control by explicitly grounding task objectives in the observed environment. Using an affordance-based task representation, we express diverse and complex behaviors in a unified, structured form. By leveraging multimodal foundation models, SAGA grounds the proposed task representation to the robot's visual observation as 3D affordance heatmaps, highlighting task-relevant entities while abstracting away spurious appearance variations that would hinder generalization. These grounded affordances enable us to effectively train a conditional policy on multi-task demonstration data for whole-body control. In a unified framework, SAGA can solve tasks specified in different forms, including language instructions, selected points, and example demonstrations, enabling both zero-shot execution and few-shot adaptation. We instantiate SAGA on a quadrupedal manipulator and conduct extensive experiments across eleven real-world tasks. SAGA consistently outperforms end-to-end and modular baselines by substantial margins. Together, these results demonstrate that structured affordance grounding offers a scalable and effective pathway toward generalist mobile manipulation.
- Abstract(参考訳): 本稿では,多様な環境,タスク目標,ユーザ仕様にまたがる汎用的かつ適応的なビジュモータ制御フレームワークSAGAを提案する。
このような能力を効果的に学習するために,観測環境におけるタスク目標を明確に基礎づけることにより,高レベルな意味意図を低レベルなビジュモータ制御から切り離すことが重要である。
割当に基づくタスク表現を用いて、多様で複雑な振る舞いを統一された構造化形式で表現する。
マルチモーダルファンデーションモデルを活用することで、SAGAは提案されたタスク表現をロボットの視覚的観察に3Dアベイランス・ヒートマップとして適用し、タスク関連エンティティを強調しながら、一般化を妨げる素早い外観のバリエーションを抽象化する。
これらの条件付き価格設定により,全体制御のためのマルチタスク実演データに対する条件付きポリシーを効果的に訓練することが可能となる。
統一されたフレームワークでは、SAGAは言語命令、選択されたポイント、サンプルデモを含む異なる形式で指定されたタスクを解決し、ゼロショット実行と少数ショット適応の両方を可能にする。
四足歩行マニピュレータ上でSAGAをインスタンス化し、11の現実世界のタスクにわたって広範な実験を行う。
SAGAは、エンド・ツー・エンドのベースラインとモジュールのベースラインをかなり上回っている。
これらの結果は、構造化された空き地は、汎用的なモバイル操作へのスケーラブルで効果的な経路を提供することを示した。
関連論文リスト
- PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with Vision-Language Models [35.83717913117858]
本稿では,空間表現抽出のためのタスク適応フレームワークであるT-Rexを紹介する。
我々は, 空間的理解, 効率, 安定性において, 付加的な訓練を伴わずに大きな優位性をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-24T10:36:15Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Task Aware Dreamer for Task Generalization in Reinforcement Learning [31.364276322513447]
一般的な世界モデルのトレーニングは、タスクにおいて同様の構造を活用でき、より一般化可能なエージェントのトレーニングに役立つことを示す。
本稿では,タスク間の遅延特性を識別するために,報酬インフォームド機能を統合するタスク・アウェア・ドリーマー (TAD) という新しい手法を提案する。
画像ベースのタスクと状態ベースのタスクの両方の実験は、TADが異なるタスクを同時に処理するパフォーマンスを大幅に改善できることを示している。
論文 参考訳(メタデータ) (2023-03-09T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。