論文の概要: Explainable OOHRI: Communicating Robot Capabilities and Limitations as Augmented Reality Affordances
- arxiv url: http://arxiv.org/abs/2601.14587v1
- Date: Wed, 21 Jan 2026 01:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.873759
- Title: Explainable OOHRI: Communicating Robot Capabilities and Limitations as Augmented Reality Affordances
- Title(参考訳): 説明可能なOHRI:ロボットの能力と限界を拡張現実感として表現する
- Authors: Lauren W. Wang, Mohamed Kari, Parastoo Abtahi,
- Abstract要約: 本稿では,ロボットの動作可能性と制約を伝達する拡張現実(AR)インターフェースであるX-OOHRIを提案する。
本システムは,視覚言語モデルを用いてオブジェクト特性とロボットの限界をオブジェクト指向構造にエンコードする。
エンド・ツー・エンドのパイプラインを物理ロボットと統合し、低レベルのピック・アンド・プレイスから高レベルの命令まで多様なユースケースを示す。
- 参考スコア(独自算出の注目度): 5.363623643280699
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human interaction is essential for issuing personalized instructions and assisting robots when failure is likely. However, robots remain largely black boxes, offering users little insight into their evolving capabilities and limitations. To address this gap, we present explainable object-oriented HRI (X-OOHRI), an augmented reality (AR) interface that conveys robot action possibilities and constraints through visual signifiers, radial menus, color coding, and explanation tags. Our system encodes object properties and robot limits into object-oriented structures using a vision-language model, allowing explanation generation on the fly and direct manipulation of virtual twins spatially aligned within a simulated environment. We integrate the end-to-end pipeline with a physical robot and showcase diverse use cases ranging from low-level pick-and-place to high-level instructions. Finally, we evaluate X-OOHRI through a user study and find that participants effectively issue object-oriented commands, develop accurate mental models of robot limitations, and engage in mixed-initiative resolution.
- Abstract(参考訳): ヒューマンインタラクションは、パーソナライズされた指示を発行し、失敗する可能性がある場合にロボットを支援するために不可欠である。
しかし、ロボットはほとんどブラックボックスのままで、ユーザーはその進化する能力と限界についてほとんど洞察できない。
このギャップに対処するために,ロボットの動作可能性と制約を視覚記号,ラジアルメニュー,カラーコーディング,説明タグを通じて伝達する拡張現実(AR)インターフェースであるオブジェクト指向HRI(X-OOHRI)を提案する。
本システムは,視覚言語モデルを用いて対象物の性質とロボットの限界を対象物構造にエンコードし,仮想双生児の空間的配置をシミュレートした環境下での説明生成と直接操作を可能にする。
エンド・ツー・エンドのパイプラインを物理ロボットと統合し、低レベルのピック・アンド・プレイスから高レベルの命令まで多種多様なユースケースを示す。
最後に、ユーザスタディを通じてX-OOHRIを評価し、参加者がオブジェクト指向のコマンドを効果的に発行し、ロボット制限の正確なメンタルモデルを開発し、混合開始分解に関与することを発見した。
関連論文リスト
- XR-DT: Extended Reality-Enhanced Digital Twin for Agentic Mobile Robots [10.083050242188422]
本稿では,エージェント移動ロボットのためのeXtended Reality-enhanced Digital TwinフレームワークであるXR-DTを提案する。
人間の意図,環境力学,ロボット認知をXR-DTフレームワークに組み込むことで,本システムは解釈可能,信頼性,適応的HRIを実現する。
論文 参考訳(メタデータ) (2025-12-04T21:49:14Z) - RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。
ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。
それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-28T07:51:02Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - DeepSym: Deep Symbol Generation and Rule Learning from Unsupervised
Continuous Robot Interaction for Planning [1.3854111346209868]
ロボットアームハンドシステムは、プッシュとスタックアクションから「ロータブル」、「インサータブル」、「ラーガー・サン」と解釈できるシンボルを学習する。
本システムは,ロボットアームハンドシステムにおいて,その動作から「回転可能」,「不可能」,「大きい」と解釈可能なシンボルを学習する物理に基づく3次元シミュレーション環境で検証する。
論文 参考訳(メタデータ) (2020-12-04T11:26:06Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。