論文の概要: AnyUser: Translating Sketched User Intent into Domestic Robots
- arxiv url: http://arxiv.org/abs/2604.04811v1
- Date: Mon, 06 Apr 2026 16:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.275938
- Title: AnyUser: Translating Sketched User Intent into Domestic Robots
- Title(参考訳): AnyUser: スケッチされたユーザーインテントを家庭用ロボットに翻訳する
- Authors: Songyuan Yang, Huibin Tan, Kailun Yang, Wenjing Yang, Shaowu Yang,
- Abstract要約: カメラ画像のフリーフォームスケッチによる直感的な家庭内タスク指導のための統合型ロボットインストラクションシステムであるAnyUserを紹介した。
AnyUserはマルチモーダル入力(スケッチ、ビジョン、言語)を空間意味プリミティブとして解釈し、実行可能なロボットアクションを生成する。
- 参考スコア(独自算出の注目度): 21.747127540075756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AnyUser, a unified robotic instruction system for intuitive domestic task instruction via free-form sketches on camera images, optionally with language. AnyUser interprets multimodal inputs (sketch, vision, language) as spatial-semantic primitives to generate executable robot actions requiring no prior maps or models. Novel components include multimodal fusion for understanding and a hierarchical policy for robust action generation. Efficacy is shown via extensive evaluations: (1) Quantitative benchmarks on the large-scale dataset showing high accuracy in interpreting diverse sketch-based commands across various simulated domestic scenes. (2) Real-world validation on two distinct robotic platforms, a statically mounted 7-DoF assistive arm (KUKA LBR iiwa) and a dual-arm mobile manipulator (Realman RMC-AIDAL), performing representative tasks like targeted wiping and area cleaning, confirming the system's ability to ground instructions and execute them reliably in physical environments. (3) A comprehensive user study involving diverse demographics (elderly, simulated non-verbal, low technical literacy) demonstrating significant improvements in usability and task specification efficiency, achieving high task completion rates (85.7%-96.4%) and user satisfaction. AnyUser bridges the gap between advanced robotic capabilities and the need for accessible non-expert interaction, laying the foundation for practical assistive robots adaptable to real-world human environments.
- Abstract(参考訳): 我々は、カメラ画像のフリーフォームスケッチによる直感的な家庭内タスク指導のための統合型ロボットインストラクションシステムであるAnyUserを紹介した。
AnyUserはマルチモーダル入力(スケッチ、ビジョン、言語)を空間意味プリミティブとして解釈し、事前の地図やモデルを必要としない実行可能なロボットアクションを生成する。
新たなコンポーネントには、理解のためのマルチモーダル融合と、堅牢なアクション生成のための階層的なポリシーが含まれる。
1) 様々なシミュレートされた家庭の場面で多様なスケッチベースのコマンドを解釈する際の高精度な大規模データセットの定量的ベンチマーク。
2) 静的に装着した7-DoF補助アーム(KUKA LBR Iiwa)とデュアルアーム移動マニピュレータ(Realman RMC-AIDAL)の2つの異なるロボットプラットフォームにおける実世界の検証を行い, 目標ワイピングやエリアクリーニングなどの代表的タスクを行い, システムによる指示の接地能力を確認し, 物理的環境下で確実に実行可能であることを確認した。
3) 多様な人口層(大半が非言語的,低技術リテラシー)を含む総合的ユーザスタディは,ユーザビリティとタスク仕様の効率化,タスク完了率(85.7%~96.4%)の達成,ユーザ満足度を著しく向上させた。
AnyUserは、高度なロボット能力と、アクセス可能な非専門家の相互作用のギャップを埋め、現実の人間の環境に適応する実用的な補助ロボットの基礎を築いた。
関連論文リスト
- Interpretable Robot Control via Structured Behavior Trees and Large Language Models [0.14990005092937678]
本稿では,自然言語理解とロボット実行を橋渡しする新しい枠組みを提案する。
提案手法は実世界のシナリオでは実用的であり、平均的な認識と実行の精度は約94%である。
論文 参考訳(メタデータ) (2025-08-13T08:53:13Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。