論文の概要: Few-Shot Inference of Human Perceptions of Robot Performance in Social Navigation Scenarios
- arxiv url: http://arxiv.org/abs/2512.16019v1
- Date: Wed, 17 Dec 2025 23:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.84604
- Title: Few-Shot Inference of Human Perceptions of Robot Performance in Social Navigation Scenarios
- Title(参考訳): 社会ナビゲーションシナリオにおけるロボット性能の人間の知覚の少ない推論
- Authors: Qiping Zhang, Nathan Tsoi, Mofeed Nagib, Hao-Tien Lewis Chiang, Marynel Vázquez,
- Abstract要約: 本稿では,大規模言語モデルによる数発の学習機能を活用し,ロボットがユーザのパフォーマンスに対する認識をいかに正確に予測できるかを改善することを提案する。
この作業は、ユーザ中心のフィードバックを通じて、スケーラブルな方法でロボットの動作を改善するための道を開く。
- 参考スコア(独自算出の注目度): 1.5415050466360671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding how humans evaluate robot behavior during human-robot interactions is crucial for developing socially aware robots that behave according to human expectations. While the traditional approach to capturing these evaluations is to conduct a user study, recent work has proposed utilizing machine learning instead. However, existing data-driven methods require large amounts of labeled data, which limits their use in practice. To address this gap, we propose leveraging the few-shot learning capabilities of Large Language Models (LLMs) to improve how well a robot can predict a user's perception of its performance, and study this idea experimentally in social navigation tasks. To this end, we extend the SEAN TOGETHER dataset with additional real-world human-robot navigation episodes and participant feedback. Using this augmented dataset, we evaluate the ability of several LLMs to predict human perceptions of robot performance from a small number of in-context examples, based on observed spatio-temporal cues of the robot and surrounding human motion. Our results demonstrate that LLMs can match or exceed the performance of traditional supervised learning models while requiring an order of magnitude fewer labeled instances. We further show that prediction performance can improve with more in-context examples, confirming the scalability of our approach. Additionally, we investigate what kind of sensor-based information an LLM relies on to make these inferences by conducting an ablation study on the input features considered for performance prediction. Finally, we explore the novel application of personalized examples for in-context learning, i.e., drawn from the same user being evaluated, finding that they further enhance prediction accuracy. This work paves the path to improving robot behavior in a scalable manner through user-centered feedback.
- Abstract(参考訳): 人間とロボットの相互作用においてロボットがどのように振る舞うかを理解することは、人間の期待に応じて振る舞う社会的に認識されたロボットを開発するために不可欠である。
これらの評価をキャプチャする従来のアプローチは、ユーザスタディを実施するためのものだが、最近の研究では、代わりに機械学習の利用を提案している。
しかし、既存のデータ駆動方式は大量のラベル付きデータを必要とするため、実際には使用が制限される。
このギャップに対処するために,大規模言語モデル(LLM)による数発の学習機能を活用し,ロボットがその性能に対するユーザの認識をいかに正確に予測できるかを改良し,このアイデアをソーシャルナビゲーションタスクにおいて実験的に研究することを提案する。
この目的のために,SEAN TOGETHERデータセットを拡張した。
本データセットを用いて,ロボットと周囲の人間の動作の時空間的手がかりに基づいて,少数のコンテキスト内例からロボット性能の人間の知覚を予測できる複数のLDMの能力を評価する。
以上の結果から,LLMは従来の教師付き学習モデルの性能に匹敵し,ラベル付きインスタンスを桁違いに減らすことができることがわかった。
さらに、予測性能がよりコンテキスト内での例で向上できることを示し、我々のアプローチのスケーラビリティを確認します。
さらに, LLM が依存するセンサベース情報を用いて, 性能予測のための入力特性に関するアブレーション研究を行うことにより, これらの推測を行う。
最後に,テキスト内学習におけるパーソナライズされたサンプル,すなわち,同一ユーザから抽出したサンプルの新規な適用について検討し,予測精度をさらに向上させることを見出した。
この研究は、ユーザ中心のフィードバックを通じて、スケーラブルな方法でロボットの動作を改善するための道を開く。
関連論文リスト
- AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation [38.227022474450834]
本稿では,従来の最先端技術と比較して性能が向上したアドレス推定モデルを提案する。
また、上記のアーキテクチャに説明可能性と透明性を組み込むいくつかの方法を提案する。
論文 参考訳(メタデータ) (2024-05-20T13:09:32Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Predicting Human Impressions of Robot Performance During Navigation Tasks [8.01980632893357]
本研究では,非言語行動手がかりと機械学習技術を用いて,ロボット行動に対する人々の印象を予測する可能性を検討する。
以上の結果から,表情だけでロボット性能の人的印象について有用な情報が得られることが示唆された。
教師付き学習技術は、ほとんどの場合、人間のロボット性能予測よりも優れていたため、有望であった。
論文 参考訳(メタデータ) (2023-10-17T21:12:32Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。