Fugu-MT 論文翻訳(概要): Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input

論文の概要: Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input

arxiv url: http://arxiv.org/abs/2409.13445v1
Date: Fri, 20 Sep 2024 12:27:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 07:04:14.303875
Title: Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input
Title（参考訳）: 自然言語入力による階層学習を用いた検索・救助における選択的探索と情報収集
Authors: Dimitrios Panagopoulos, Adolfo Perrusquia, Weisi Guo,
Abstract要約: 本稿では,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを提案する。提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。 LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、長い地平線とスパース報酬を特徴とする環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
参考スコア（独自算出の注目度）: 5.522800137785975
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In recent years, robots and autonomous systems have become increasingly integral to our daily lives, offering solutions to complex problems across various domains. Their application in search and rescue (SAR) operations, however, presents unique challenges. Comprehensively exploring the disaster-stricken area is often infeasible due to the vastness of the terrain, transformed environment, and the time constraints involved. Traditional robotic systems typically operate on predefined search patterns and lack the ability to incorporate and exploit ground truths provided by human stakeholders, which can be the key to speeding up the learning process and enhancing triage. Addressing this gap, we introduce a system that integrates social interaction via large language models (LLMs) with a hierarchical reinforcement learning (HRL) framework. The proposed system is designed to translate verbal inputs from human stakeholders into actionable RL insights and adjust its search strategy. By leveraging human-provided information through LLMs and structuring task execution through HRL, our approach not only bridges the gap between autonomous capabilities and human intelligence but also significantly improves the agent's learning efficiency and decision-making process in environments characterised by long horizons and sparse rewards.
Abstract（参考訳）: 近年、ロボットと自律システムは私たちの日常生活にますます不可欠なものとなり、様々な領域にまたがる複雑な問題に対する解決策を提供してきた。しかし、SAR(Search and rescue)オペレーションにおけるそれらの応用は、ユニークな課題を提示している。災害に遭った地域を網羅的に探索することは、地形の広さ、変化する環境、そして関連する時間的制約のためにしばしば実現不可能である。従来のロボットシステムは、事前に定義された探索パターンで動作し、人間の利害関係者が提供する真実を取り入れ、活用する能力が欠如している。このギャップに対処するため,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを導入する。提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。 LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、我々のアプローチは自律能力と人間の知能のギャップを埋めるだけでなく、長い地平線とスパース報酬によって特徴づけられる環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。

関連論文リスト

IMAGINE: Intelligent Multi-Agent Godot-based Indoor Networked Exploration [0.0]
本稿では,2次元屋内環境における課題に対処するために,MARL(Multi-Agent Reinforcement Learning)を実装した。政策訓練は、不確実性の下で創発的な協調行動と意思決定を達成することを目的としている。
論文参考訳（メタデータ） (2026-02-02T22:08:41Z)
SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文参考訳（メタデータ） (2025-11-29T09:18:39Z)
Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning [1.8374319565577155]
本稿では,資源効率の良い意味探索を目的とした新しいDeep Reinforcement Learningアーキテクチャを提案する。重要な方法論的貢献は、層状報酬関数によるビジョンランゲージモデル(VLM)の共通センスの統合である。本研究では,本エージェントがオブジェクト発見率を大幅に向上し,セマンティックにリッチな領域へ効果的にナビゲートする学習能力を開発したことを示す。
論文参考訳（メタデータ） (2025-09-11T11:10:08Z)
Multi-agent Embodied AI: Advances and Future Directions [46.23631919950584]
エンボディード人工知能(Embodied AI)は、インテリジェントな時代における先進技術の適用において重要な役割を担っている。本稿では,研究の現状を概観し,重要な貢献を分析し,課題と今後の方向性を明らかにする。
論文参考訳（メタデータ） (2025-05-08T10:13:53Z)
Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile Manipulation [39.43049944895508]
Instruction-Augmented Long-Horizon Planning (IALP) システムを提案する。その結果, IALPシステムでは, 平均成功率80%を超えるタスクを効率的に解けることがわかった。
論文参考訳（メタデータ） (2025-03-11T06:37:33Z)
Training a Generally Curious Agent [86.84089201249104]
PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。 PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文参考訳（メタデータ） (2025-02-24T18:56:58Z)
Large Language Models for Multi-Robot Systems: A Survey [9.31855372655603]
マルチロボットシステム(MRS)は、調整、スケーラビリティ、現実の適応性など、ユニークな課題を提起する。このサーベイは、MSSへのLLM(Large Language Models)統合に関する最初の包括的な調査を提供する。家庭用ロボティクス、建設、構成制御、目標追跡、ロボットゲームなど、さまざまな分野における重要な応用に焦点を当てる。
論文参考訳（メタデータ） (2025-02-06T06:52:14Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning [22.99690700210957]
言語命令を利用して,より高レベルなポリシーのための静的報酬関数を生成する新しいHRLフレームワークを提案する。言語誘導報酬はより低い原始的な振る舞いに影響されないため、LGR2は非定常性を緩和する。弊社のアプローチは、難易度の高いスパークリワードロボットナビゲーションと操作環境において、70ドル以上の成功率を達成した。
論文参考訳（メタデータ） (2024-06-09T18:40:24Z)
RHFedMTL: Resource-Aware Hierarchical Federated Multi-Task Learning [11.329273673732217]
フェデレーション学習は、セキュリティを備えた大規模な分散ノード上でAIを可能にする効果的な方法である。複数の基地局(BS)と端末をまたいだマルチタスク学習を維持しながら、プライバシを確保することは困難である。本稿では, セルラーワークの自然雲-BS-末端階層に着想を得て, 資源を考慮した階層型MTL (RHFedMTL) ソリューションを提案する。
論文参考訳（メタデータ） (2023-06-01T13:49:55Z)
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2022-07-11T08:31:22Z)
Autonomous Open-Ended Learning of Tasks with Non-Stationary Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文参考訳（メタデータ） (2022-05-16T10:43:01Z)
Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。 RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文参考訳（メタデータ） (2021-12-17T16:28:06Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
Deep Reinforcement Learning with Interactive Feedback in a Human-Robot Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文参考訳（メタデータ） (2020-07-07T11:55:27Z)
Distributed and Democratized Learning: Philosophy and Research Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文参考訳（メタデータ） (2020-03-18T08:45:10Z)
Human AI interaction loop training: New approach for interactive reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。 RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文参考訳（メタデータ） (2020-03-09T15:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。