論文の概要: Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input
- arxiv url: http://arxiv.org/abs/2409.13445v1
- Date: Fri, 20 Sep 2024 12:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:04:14.303875
- Title: Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input
- Title(参考訳): 自然言語入力による階層学習を用いた検索・救助における選択的探索と情報収集
- Authors: Dimitrios Panagopoulos, Adolfo Perrusquia, Weisi Guo,
- Abstract要約: 本稿では,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを提案する。
提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。
LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、長い地平線とスパース報酬を特徴とする環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
- 参考スコア(独自算出の注目度): 5.522800137785975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, robots and autonomous systems have become increasingly integral to our daily lives, offering solutions to complex problems across various domains. Their application in search and rescue (SAR) operations, however, presents unique challenges. Comprehensively exploring the disaster-stricken area is often infeasible due to the vastness of the terrain, transformed environment, and the time constraints involved. Traditional robotic systems typically operate on predefined search patterns and lack the ability to incorporate and exploit ground truths provided by human stakeholders, which can be the key to speeding up the learning process and enhancing triage. Addressing this gap, we introduce a system that integrates social interaction via large language models (LLMs) with a hierarchical reinforcement learning (HRL) framework. The proposed system is designed to translate verbal inputs from human stakeholders into actionable RL insights and adjust its search strategy. By leveraging human-provided information through LLMs and structuring task execution through HRL, our approach not only bridges the gap between autonomous capabilities and human intelligence but also significantly improves the agent's learning efficiency and decision-making process in environments characterised by long horizons and sparse rewards.
- Abstract(参考訳): 近年、ロボットと自律システムは私たちの日常生活にますます不可欠なものとなり、様々な領域にまたがる複雑な問題に対する解決策を提供してきた。
しかし、SAR(Search and rescue)オペレーションにおけるそれらの応用は、ユニークな課題を提示している。
災害に遭った地域を網羅的に探索することは、地形の広さ、変化する環境、そして関連する時間的制約のためにしばしば実現不可能である。
従来のロボットシステムは、事前に定義された探索パターンで動作し、人間の利害関係者が提供する真実を取り入れ、活用する能力が欠如している。
このギャップに対処するため,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを導入する。
提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。
LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、我々のアプローチは自律能力と人間の知能のギャップを埋めるだけでなく、長い地平線とスパース報酬によって特徴づけられる環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning [22.99690700210957]
言語命令を利用して,より高レベルなポリシーのための静的報酬関数を生成する新しいHRLフレームワークを提案する。
言語誘導報酬はより低い原始的な振る舞いに影響されないため、LGR2は非定常性を緩和する。
弊社のアプローチは、難易度の高いスパークリワードロボットナビゲーションと操作環境において、70ドル以上の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-09T18:40:24Z) - RHFedMTL: Resource-Aware Hierarchical Federated Multi-Task Learning [11.329273673732217]
フェデレーション学習は、セキュリティを備えた大規模な分散ノード上でAIを可能にする効果的な方法である。
複数の基地局(BS)と端末をまたいだマルチタスク学習を維持しながら、プライバシを確保することは困難である。
本稿では, セルラーワークの自然雲-BS-末端階層に着想を得て, 資源を考慮した階層型MTL (RHFedMTL) ソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-01T13:49:55Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - Distributed and Democratized Learning: Philosophy and Research
Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。
ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。
本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文 参考訳(メタデータ) (2020-03-18T08:45:10Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。