論文の概要: Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.14727v1
- Date: Tue, 17 Jun 2025 17:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.588378
- Title: Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models
- Title(参考訳): Casper:視覚言語モデルを用いた補助的遠隔操作のための多言語インテントの推論
- Authors: Huihan Liu, Rutav Shah, Shuijing Liu, Jack Pittenger, Mingyo Seo, Yuchen Cui, Yonatan Bisk, Roberto Martín-Martín, Yuke Zhu,
- Abstract要約: 現実の遠隔操作における中心的な課題は、ロボットがユーザー制御入力から幅広い人間の意図を推測し、正しい行動でユーザーを支援することである。
本稿では,事前学習された視覚言語モデル(VLM)に埋め込まれたコモンセンス知識をリアルタイムな意図推論と柔軟なスキル実行に活用する,支援型遠隔操作システムであるCasperを紹介する。
- 参考スコア(独自算出の注目度): 50.19518681574399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assistive teleoperation, where control is shared between a human and a robot, enables efficient and intuitive human-robot collaboration in diverse and unstructured environments. A central challenge in real-world assistive teleoperation is for the robot to infer a wide range of human intentions from user control inputs and to assist users with correct actions. Existing methods are either confined to simple, predefined scenarios or restricted to task-specific data distributions at training, limiting their support for real-world assistance. We introduce Casper, an assistive teleoperation system that leverages commonsense knowledge embedded in pre-trained visual language models (VLMs) for real-time intent inference and flexible skill execution. Casper incorporates an open-world perception module for a generalized understanding of novel objects and scenes, a VLM-powered intent inference mechanism that leverages commonsense reasoning to interpret snippets of teleoperated user input, and a skill library that expands the scope of prior assistive teleoperation systems to support diverse, long-horizon mobile manipulation tasks. Extensive empirical evaluation, including human studies and system ablations, demonstrates that Casper improves task performance, reduces human cognitive load, and achieves higher user satisfaction than direct teleoperation and assistive teleoperation baselines.
- Abstract(参考訳): 人間とロボットの間で制御が共有される補助的遠隔操作は、多様で非構造的な環境において、効率的で直感的な人間とロボットの協調を可能にする。
現実の遠隔操作における中心的な課題は、ロボットがユーザー制御入力から幅広い人間の意図を推測し、正しい行動でユーザーを支援することである。
既存のメソッドは、単純な、事前定義されたシナリオに制限されるか、トレーニング時にタスク固有のデータ分散に制限され、現実のアシストのサポートが制限される。
本稿では,事前学習された視覚言語モデル(VLM)に埋め込まれたコモンセンス知識をリアルタイムな意図推論と柔軟なスキル実行に活用する,支援型遠隔操作システムであるCasperを紹介する。
Casperには、新しいオブジェクトやシーンを一般化した理解のためのオープンワールド認識モジュール、遠隔操作されたユーザ入力のスニペットを解釈するために常識推論を利用するVLMベースのインテント推論機構、多種多様な長距離移動操作タスクをサポートするための事前支援遠隔操作システムの範囲を広げるスキルライブラリが含まれている。
人間の研究やシステム改善を含む広範な経験的評価は、Casperがタスクパフォーマンスを改善し、人間の認知的負荷を低減し、直接遠隔操作や補助遠隔操作のベースラインよりも高いユーザ満足度を達成することを実証している。
関連論文リスト
- Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - GoferBot: A Visual Guided Human-Robot Collaborative Assembly System [33.649596318580215]
GoferBot(ゴーファーボット)は、現実のアセンブリータスクのための新しい視覚ベースの意味的HRCシステムである。
GoferBotは、視覚的知覚から純粋に暗黙のセマンティック情報を活用することで、すべてのサブモジュールをシームレスに統合する新しいアセンブリシステムである。
論文 参考訳(メタデータ) (2023-04-18T09:09:01Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Learning Visually Guided Latent Actions for Assistive Teleoperation [9.75385535829762]
視覚入力に潜伏埋め込みを条件とした補助ロボットを開発。
少量の安価で収集しやすい構造データに予め訓練されたオブジェクト検出器を組み込むことにより、i)現在のコンテキストを正確に認識し、ii)新しいオブジェクトやタスクへの制御埋め込みを一般化する。
論文 参考訳(メタデータ) (2021-05-02T23:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。