論文の概要: SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Model and Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.15648v2
- Date: Thu, 26 Dec 2024 17:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:04.708373
- Title: SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Model and Deep Reinforcement Learning
- Title(参考訳): SRLM:大規模言語モデルと深層強化学習による対話型社会ロボットナビゲーション
- Authors: Weizheng Wang, Ike Obi, Byung-Cheol Min,
- Abstract要約: SRLM(Social Robot Planner)と呼ばれる新しいハイブリッドアプローチを提案する。
LLM(Large Language Models)とDRL(Deep Reinforcement Learning)を統合し、人間に満たされた公共空間をナビゲートする。
SRLMは、リアルタイムでヒューマン・イン・ループ・コマンドからグローバル・プランニングを推測し、LLMベースの大型ナビゲーション・モデルに社会情報をエンコードする。
- 参考スコア(独自算出の注目度): 6.177111114127053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An interactive social robotic assistant must provide services in complex and crowded spaces while adapting its behavior based on real-time human language commands or feedback. In this paper, we propose a novel hybrid approach called Social Robot Planner (SRLM), which integrates Large Language Models (LLM) and Deep Reinforcement Learning (DRL) to navigate through human-filled public spaces and provide multiple social services. SRLM infers global planning from human-in-loop commands in real-time, and encodes social information into a LLM-based large navigation model (LNM) for low-level motion execution. Moreover, a DRL-based planner is designed to maintain benchmarking performance, which is blended with LNM by a large feedback model (LFM) to address the instability of current text and LLM-driven LNM. Finally, SRLM demonstrates outstanding performance in extensive experiments. More details about this work are available at: https://sites.google.com/view/navi-srlm
- Abstract(参考訳): 対話型ソーシャルロボットアシスタントは、複雑で混み合った空間でサービスを提供しながら、リアルタイムのヒューマン言語コマンドやフィードバックに基づいてその振る舞いを適応させなければならない。
本稿では,Large Language Models (LLM) とDeep Reinforcement Learning (DRL) を統合したソーシャル・ロボット・プランナー (SRLM) という新しいハイブリッド・アプローチを提案する。
SRLMは、リアルタイムでヒューマン・イン・ループ・コマンドからグローバル・プランニングを推測し、低レベル動作実行のためのLLMベースの大型ナビゲーション・モデル(LNM)に社会情報をエンコードする。
さらに、DRLベースのプランナは、LNMとLNMをブレンドして、現在のテキストとLLM駆動のLNMの不安定性に対処するベンチマーク性能を維持するように設計されている。
最後に、SRLMは広範な実験において優れた性能を示す。
この作業の詳細は、https://sites.google.com/view/navi-srlm.comで確認できる。
関連論文リスト
- HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [63.54109142085327]
VLN(Vision-and-Language Navigation)システムは、離散(パノラマ)または連続(フリーモーション)のパラダイムのみに焦点を当てることが多い。
我々は、これらのパラダイムを明示的な社会的認識制約の下でマージする統合されたヒューマン・アウェアVLNベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - GSON: A Group-based Social Navigation Framework with Large Multimodal Model [9.94576166903495]
本稿では,新しいグループベースのソーシャルナビゲーションフレームワークであるGSONを紹介する。
GSONは視覚的プロンプトを使用して、歩行者間の社会的関係のゼロショット抽出を可能にする。
我々は、大規模な実世界の移動ロボットナビゲーション実験を通じてGSONを検証する。
論文 参考訳(メタデータ) (2024-09-26T17:27:15Z) - Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。
シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文 参考訳(メタデータ) (2024-09-12T18:00:18Z) - Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
このアプローチは、人間の経験と知識をこれらの洗練されたLLMに注入するために、巧妙なプロンプトの戦略的利用を必要とする。
この統合は、サービスとしての人工知能(AI)と、より容易なAIの将来のパラダイムを表している。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文 参考訳(メタデータ) (2024-06-20T08:23:49Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback [86.87638927637005]
ChatGLMは、大規模言語モデル(LLM)を利用した、無償のAIサービスである。
本稿では,ChatGLM-RLHFパイプラインについて述べる。
論文 参考訳(メタデータ) (2024-04-01T05:39:36Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - LLM A*: Human in the Loop Large Language Models Enabled A* Search for Robotics [3.567107449359775]
本研究は,ロボットなどの移動体エージェントの(パス)計画において,Large Language Models(LLM)がいかに役立つかに焦点を当てる。
LLM A* という新しいフレームワークは LLM のコモンセンスを活用することを目的としており、ユーティリティ最適化 A* は少数ショットに近い経路計画を容易にするために提案されている。
このアプローチでは、人間からのフィードバックを受け取り、計画プロセス全体を(ホワイトボックスのように)人間に透明にします。
論文 参考訳(メタデータ) (2023-12-04T10:37:58Z) - Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。
我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文 参考訳(メタデータ) (2023-10-12T01:17:56Z) - User Simulation with Large Language Models for Evaluating Task-Oriented
Dialogue [10.336443286833145]
本稿では,最近開発された大規模事前学習言語モデル(LLM)を用いた新しいユーザシミュレータを提案する。
シミュレーション性能の主指標としてゴール成功率(GSR)を最大化しようとする従来の研究とは異なり,本研究の目的は,TODシステムとのヒューマンインタラクションで観測されるようなGSRを実現するシステムである。
論文 参考訳(メタデータ) (2023-09-23T02:04:57Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - SocNavGym: A Reinforcement Learning Gym for Social Navigation [0.0]
SocNavGymは、ソーシャルナビゲーションのための高度なシミュレーション環境である。
さまざまなタイプのソーシャルナビゲーションシナリオを生成することができる。
また、さまざまな手作りとデータ駆動のソーシャル報酬信号を扱うように設定することもできる。
論文 参考訳(メタデータ) (2023-04-27T11:29:02Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。