論文の概要: T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.19498v1
- Date: Tue, 24 Jun 2025 10:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:56.671193
- Title: T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with Vision-Language Models
- Title(参考訳): T-Rex:視覚言語モデルを用いたロボットマニピュレーションのためのタスク適応型空間表現抽出
- Authors: Yiteng Chen, Wenbo Li, Shiyi Wang, Huiping Zhuang, Qingyao Wu,
- Abstract要約: 本稿では,空間表現抽出のためのタスク適応フレームワークであるT-Rexを紹介する。
我々は, 空間的理解, 効率, 安定性において, 付加的な訓練を伴わずに大きな優位性をもたらすことを示す。
- 参考スコア(独自算出の注目度): 35.83717913117858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a general robotic manipulation system capable of performing a wide variety of tasks in real-world settings is a challenging task. Vision-Language Models (VLMs) have demonstrated remarkable potential in robotic manipulation tasks, primarily due to the extensive world knowledge they gain from large-scale datasets. In this process, Spatial Representations (such as points representing object positions or vectors representing object orientations) act as a bridge between VLMs and real-world scene, effectively grounding the reasoning abilities of VLMs and applying them to specific task scenarios. However, existing VLM-based robotic approaches often adopt a fixed spatial representation extraction scheme for various tasks, resulting in insufficient representational capability or excessive extraction time. In this work, we introduce T-Rex, a Task-Adaptive Framework for Spatial Representation Extraction, which dynamically selects the most appropriate spatial representation extraction scheme for each entity based on specific task requirements. Our key insight is that task complexity determines the types and granularity of spatial representations, and Stronger representational capabilities are typically associated with Higher overall system operation costs. Through comprehensive experiments in real-world robotic environments, we show that our approach delivers significant advantages in spatial understanding, efficiency, and stability without additional training.
- Abstract(参考訳): 現実の環境で様々なタスクを実行できる汎用ロボット操作システムを構築することは、難しい課題である。
VLM(Vision-Language Models)は、ロボット操作タスクにおいて、大規模なデータセットから得られる広範な世界的知識によって、顕著な可能性を示している。
このプロセスでは、空間表現(オブジェクトの位置を表す点や、オブジェクトの向きを表すベクトルなど)がVLMと現実世界のシーンの間の橋渡しとして機能し、VLMの推論能力を効果的に基礎づけ、特定のタスクシナリオに適用する。
しかしながら、既存のVLMベースのロボットアプローチでは、様々なタスクに対して固定空間表現抽出方式を採用することが多く、表現能力の不足や過剰な抽出時間が発生する。
本研究では,タスク要求に基づいて,各エンティティに対して最適な空間表現抽出方式を動的に選択するタスク適応型空間表現抽出フレームワークであるT-Rexを紹介する。
我々の重要な洞察は、タスクの複雑さが空間表現の型と粒度を決定することである。
実世界のロボット環境における総合的な実験を通して、我々のアプローチは、余分な訓練なしに空間的理解、効率、安定性において大きな利点をもたらすことを示した。
関連論文リスト
- Multimodal Fused Learning for Solving the Generalized Traveling Salesman Problem in Robotic Task Planning [11.697279328699489]
汎用トラベリングセールスマン問題(GTSP)を解決するための多モード融合学習フレームワークを提案する。
まず、GTSPインスタンスを空間情報表現に変換する座標ベースのイメージビルダーを紹介する。
次に、異なる問題スケールにわたる適応性を高めるための適応分解能スケーリング戦略を設計し、マルチモーダル融合モジュールを開発する。
論文 参考訳(メタデータ) (2025-06-20T11:51:52Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。
LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。
これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。