論文の概要: Learning to See and Act: Task-Aware View Planning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2508.05186v1
- Date: Thu, 07 Aug 2025 09:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.783168
- Title: Learning to See and Act: Task-Aware View Planning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのためのタスク・アウェア・ビュー・プランニング
- Authors: Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo Liu, Guanbin Li, Liang Lin,
- Abstract要約: Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 85.65102094981802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language-action (VLA) models for multi-task robotic manipulation commonly rely on static viewpoints and shared visual encoders, which limit 3D perception and cause task interference, hindering robustness and generalization. In this work, we propose Task-Aware View Planning (TAVP), a framework designed to overcome these challenges by integrating active view planning with task-specific representation learning. TAVP employs an efficient exploration policy, accelerated by a novel pseudo-environment, to actively acquire informative views. Furthermore, we introduce a Mixture-of-Experts (MoE) visual encoder to disentangle features across different tasks, boosting both representation fidelity and task generalization. By learning to see the world in a task-aware way, TAVP generates more complete and discriminative visual representations, demonstrating significantly enhanced action prediction across a wide array of manipulation challenges. Extensive experiments on RLBench tasks show that our proposed TAVP model achieves superior performance over state-of-the-art fixed-view approaches. Visual results and code are provided at: https://hcplab-sysu.github.io/TAVP.
- Abstract(参考訳): 近年のマルチタスクロボット操作のための視覚-言語-アクション(VLA)モデルは、静的視点と共有視覚エンコーダに依存しており、3次元知覚を制限し、タスク干渉を引き起こし、堅牢性や一般化を妨げる。
本研究では,タスク固有の表現学習とアクティブなビュープランニングを統合することで,これらの課題を克服するためのフレームワークであるタスク認識ビュープランニング(TAVP)を提案する。
TAVPは、情報的視点を積極的に獲得するために、新しい擬環境によって加速される効率的な探索政策を採用している。
さらに,Mixture-of-Experts (MoE)ビジュアルエンコーダを導入し,様々なタスクにまたがる特徴を分散させ,表現の忠実度とタスクの一般化を促進させる。
タスク認識された方法で世界を見ることを学ぶことで、TAVPはより完全で識別可能な視覚表現を生成し、広範囲な操作課題において、大幅に強化された行動予測を示す。
RLBenchタスクの大規模な実験により,提案したTAVPモデルにより,最先端の固定ビュー手法よりも優れた性能が得られることが示された。
ビジュアルな結果とコードは以下の通りである。
関連論文リスト
- VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models [9.376810354990079]
VLA-OSは,様々なタスク計画パラダイムを備えた統一型VLAアーキテクチャシリーズである。
様々な対象カテゴリ(剛体・変形可能)、視覚的モーダル性(2D・3D)、環境(シミュレーション・実世界)、エンドエフェクター(グリッパー・デキスタスハンド)の総合的な実験スイートを設計する。
論文 参考訳(メタデータ) (2025-06-21T03:07:48Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - A Stepwise Distillation Learning Strategy for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks [48.181520570707654]
各種VRタスクにおける非微分可能なVPorgのためのステップワイズ蒸留学習戦略を提案する。
我々のSDVPは、VProgの視覚サブタスクのための既存の、よく訓練されたタスク固有のモデルを、対応する視覚サブモジュールによって呼び出されるはるかに大きなVLMに段階的に蒸留する。
論文 参考訳(メタデータ) (2023-09-18T14:28:47Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。