論文の概要: Learning Human Perception Dynamics for Informative Robot Communication
- arxiv url: http://arxiv.org/abs/2502.01857v1
- Date: Mon, 03 Feb 2025 22:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:55.770964
- Title: Learning Human Perception Dynamics for Informative Robot Communication
- Title(参考訳): 情報伝達ロボットのための人間の知覚ダイナミクスの学習
- Authors: Shenghui Chen, Ruihan Zhao, Sandeep Chinchali, Ufuk Topcu,
- Abstract要約: CoNav-Mazeは、ロボットが局所的な知覚を用いてナビゲートし、人間のオペレーターが不正確な地図に基づいてガイダンスを提供するシミュレーションロボット環境である。
効率的な人ロボット協調を実現するため,情報ゲインモンテカルロ木探索(IG-MCTS)を提案する。
Central to IG-MCTSは、人間がロボットのコミュニケーションからどのように情報を抽出するかを推定する、人間の知覚力学モデルである。
- 参考スコア(独自算出の注目度): 21.170542003568674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-robot cooperative navigation is challenging in environments with incomplete information. We introduce CoNav-Maze, a simulated robotics environment where a robot navigates using local perception while a human operator provides guidance based on an inaccurate map. The robot can share its camera views to improve the operator's understanding of the environment. To enable efficient human-robot cooperation, we propose Information Gain Monte Carlo Tree Search (IG-MCTS), an online planning algorithm that balances autonomous movement and informative communication. Central to IG-MCTS is a neural human perception dynamics model that estimates how humans distill information from robot communications. We collect a dataset through a crowdsourced mapping task in CoNav-Maze and train this model using a fully convolutional architecture with data augmentation. User studies show that IG-MCTS outperforms teleoperation and instruction-following baselines, achieving comparable task performance with significantly less communication and lower human cognitive load, as evidenced by eye-tracking metrics.
- Abstract(参考訳): 人間ロボットの協調航行は、不完全な情報を持つ環境では困難である。
ロボットが局所的な知覚を用いてナビゲートし、人間のオペレーターが不正確な地図に基づいてガイダンスを提供するシミュレーションロボット環境であるCoNav-Mazeを紹介した。
ロボットは、オペレーターの環境理解を改善するために、カメラビューを共有することができる。
本稿では,自律的な移動と情報通信のバランスをとるオンライン計画アルゴリズムであるIG-MCTSを提案する。
Central to IG-MCTSは、人間がロボットのコミュニケーションからどのように情報を抽出するかを推定する、人間の知覚力学モデルである。
CoNav-Mazeのクラウドソースマッピングタスクを通じてデータセットを収集し、データ拡張を備えた完全な畳み込みアーキテクチャを使用して、このモデルをトレーニングします。
ユーザスタディによると、IG-MCTSは遠隔操作や指示追従のベースラインよりも優れており、視線追跡の指標によって証明されているように、コミュニケーションが著しく少なく、認知負荷も低く、タスクパフォーマンスに匹敵する。
関連論文リスト
- MR.NAVI: Mixed-Reality Navigation Assistant for the Visually Impaired [42.45301319345154]
本稿では,視覚障害者の空間認識を高める複合現実感システムであるMR. NAVIを提案する。
本システムでは,物体検出と深度推定のためのコンピュータビジョンアルゴリズムと自然言語処理を組み合わせることで,文脈的シーン記述を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:02:56Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - UPTor: Unified 3D Human Pose Dynamics and Trajectory Prediction for Human-Robot Interaction [0.688204255655161]
本研究では,グローバル座標フレームにおける全体ポーズと軌道キーポイントの予測手法を提案する。
我々は、市販の3次元ポーズ推定モジュール、グラフアテンションネットワーク、コンパクトで非自己回帰的なトランスフォーマーを使用する。
従来の研究と比較して、我々のアプローチはコンパクトでリアルタイムであり、全てのデータセットにわたる人間のナビゲーション動作を予測する上で正確であることを示す。
論文 参考訳(メタデータ) (2025-05-20T19:57:25Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - CoNav: A Benchmark for Human-Centered Collaborative Navigation [66.6268966718022]
協調ナビゲーション(CoNav)ベンチマークを提案する。
われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。
本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:44:25Z) - LPAC: Learnable Perception-Action-Communication Loops with Applications
to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。
CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。
評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-01-10T00:08:00Z) - Learning Multimodal Latent Dynamics for Human-Robot Interaction [19.803547418450236]
本稿では,ヒト-ヒトインタラクション(HHI)から協調型人間-ロボットインタラクション(HRI)を学習する方法を提案する。
本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッドアプローチを考案する。
ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度でメソッドをランク付けすることが分かりました。
論文 参考訳(メタデータ) (2023-11-27T23:56:59Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - CoMoGCN: Coherent Motion Aware Trajectory Prediction with Graph
Representation [12.580809204729583]
グループ制約のある混雑したシーンにおける軌道予測のための,コヒーレントな動き認識グラフ畳み込みネットワーク(CoMoGCN)を提案する。
提案手法は,複数のトラジェクトリ予測ベンチマーク上での最先端性能と,検討したすべてのベンチマークの中で最高の平均性能を実現する。
論文 参考訳(メタデータ) (2020-05-02T09:10:30Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。