論文の概要: Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces
- arxiv url: http://arxiv.org/abs/2501.09024v1
- Date: Mon, 30 Dec 2024 23:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-19 08:09:21.768168
- Title: Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces
- Title(参考訳): Social-LLaVA: 社会空間におけるヒューマンランゲージ推論によるロボットナビゲーションの強化
- Authors: Amirreza Payandeh, Daeun Song, Mohammad Nazeri, Jing Liang, Praneel Mukherjee, Amir Hossain Raj, Yangzhe Kong, Dinesh Manocha, Xuesu Xiao,
- Abstract要約: 本研究では,人間の知覚とロボット行動のギャップを埋めるために言語を用いることを提案する。
視覚言語データセットであるSocial Robot Navigation via Explainable Interactions (SNEI)を作成し、40万個の人称視覚質問回答(VQA)を特徴とする。
我々は、SNEIを用いてVLM、Social-LLaVAを微調整し、データセットの実用性を実証する。
- 参考スコア(独自算出の注目度): 40.44502415484082
- License:
- Abstract: Most existing social robot navigation techniques either leverage hand-crafted rules or human demonstrations to connect robot perception to socially compliant actions. However, there remains a significant gap in effectively translating perception into socially compliant actions, much like how human reasoning naturally occurs in dynamic environments. Considering the recent success of Vision-Language Models (VLMs), we propose using language to bridge the gap in human-like reasoning between perception and socially aware robot actions. We create a vision-language dataset, Social robot Navigation via Explainable Interactions (SNEI), featuring 40K human-annotated Visual Question Answers (VQAs) based on 2K human-robot social interactions in unstructured, crowded public spaces, spanning perception, prediction, chain-of-thought reasoning, action, and explanation. We fine-tune a VLM, Social-LLaVA, using SNEI to demonstrate the practical application of our dataset. Social-LLaVA outperforms state-of-the-art models like GPT-4V and Gemini, based on the average of fifteen different human-judge scores across 50 VQA. Deployed onboard a mobile robot, Social-LLaVA enables human-like reasoning, marking a promising step toward socially compliant robot navigation in dynamic public spaces through language reasoning.
- Abstract(参考訳): 既存の社会ロボットナビゲーション技術は、手作りのルールや人間のデモを利用して、ロボットの知覚と社会的に適合した行動とを結びつける。
しかしながら、人間の推論が動的環境において自然に起こるのと同じように、知覚を社会的に順応する行動に効果的に翻訳することには、大きなギャップが残っている。
近年のVLM(Vision-Language Models)の成功を考えると、認知と社会的に認識されるロボット行動の間の人間的な推論のギャップを埋めるために言語を使うことを提案する。
我々は、視覚言語データセットであるSocial Robot Navigation via Explainable Interactions (SNEI)を作成し、構造化されていない、混雑した公共空間における2Kの人間-ロボットの社会的相互作用に基づく40万の視覚的質問回答(VQA)を特徴付ける。
我々は、SNEIを用いてVLM、Social-LLaVAを微調整し、データセットの実用性を実証する。
Social-LLaVA は GPT-4V や Gemini のような最先端のモデルよりも優れており、50 VQA で15の異なる人事スコアに基づいている。
モバイルロボットに搭載されたSocial-LLaVAは、人間のような推論を可能にする。
関連論文リスト
- Socially Integrated Navigation: A Social Acting Robot with Deep Reinforcement Learning [0.7864304771129751]
移動ロボットは様々な混み合った状況で大規模に使われており、私たちの社会の一部になっている。
個人を考慮した移動ロボットの社会的に許容されるナビゲーション行動は、スケーラブルなアプリケーションと人間の受容にとって必須の要件である。
本稿では,ロボットの社会行動が適応的であり,人間との相互作用から生じる,社会統合型ナビゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T18:25:40Z) - Robot Interaction Behavior Generation based on Social Motion Forecasting for Human-Robot Interaction [9.806227900768926]
本稿では,共有ロボット表現空間における社会的動き予測のモデル化を提案する。
ECHOは上記の共有空間で活動し、社会的シナリオで遭遇したエージェントの将来の動きを予測する。
我々は,多対人動作予測タスクにおけるモデルの評価を行い,最先端の性能を大きなマージンで獲得する。
論文 参考訳(メタデータ) (2024-02-07T11:37:14Z) - HandMeThat: Human-Robot Communication in Physical and Social
Environments [73.91355172754717]
HandMeThatは、物理的および社会的環境における命令理解とフォローの総合評価のためのベンチマークである。
HandMeThatには、人間とロボットの対話の1万エピソードが含まれている。
オフラインとオンラインの強化学習アルゴリズムはHandMeThatでは性能が良くないことを示す。
論文 参考訳(メタデータ) (2023-10-05T16:14:46Z) - Developing Social Robots with Empathetic Non-Verbal Cues Using Large
Language Models [2.5489046505746704]
我々は,音声,行動(妊娠),表情,感情の4種類の共感的非言語的手がかりを社会ロボットで設計し,ラベル付けする。
予備的な結果は、ロボットの反応において「喜び」や「リリー」のような穏やかでポジティブな社会的感情の好みや、頻繁にうなずく動作など、異なるパターンが示される。
我々の研究は、言語と非言語の両方が社会的・共感的なロボットを作る上で不可欠な役割を強調し、人間とロボットの相互作用に関する将来の研究の基盤となる。
論文 参考訳(メタデータ) (2023-08-31T08:20:04Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - From Learning to Relearning: A Framework for Diminishing Bias in Social
Robot Navigation [3.3511723893430476]
社会的ナビゲーションモデルは、差別や差別のような社会的不公平を複製し、促進し、増幅することができる。
提案するフレームワークは,安全性と快適性を考慮したソーシャルコンテキストを学習プロセスに組み込んだtextitlearningと,発生前に潜在的に有害な結果を検出し修正するtextitrelearningの2つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2021-01-07T17:42:35Z) - Joint Mind Modeling for Explanation Generation in Complex Human-Robot
Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。
ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。
その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-07-24T23:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。