Fugu-MT 論文翻訳(概要): EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution

論文の概要: EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution

arxiv url: http://arxiv.org/abs/2408.17379v2
Date: Tue, 22 Oct 2024 16:58:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:57:28.082657
Title: EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution
Title（参考訳）: EMPOWER: オンライングラウンドと実行によるマルチロールオープン語彙プランニング
Authors: Francesco Argenziano, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi,
Abstract要約: 実生活環境におけるロボットのタスクプランニングは重要な課題である。これらの課題は、目標を達成するためのステップの基底的なシーケンスを特定することの難しさ、高レベルのアクションと低レベルのコマンドの標準化されたマッピングの欠如、ロボットハードウェアの限られたリソースを考えると、計算オーバーヘッドを低く抑えることの3つの問題に起因している。オープン・ボキャブラリ・オンライン・グラウンドディングのためのフレームワークであるEMPOWERを紹介し,これらの問題に対処するための具体的エージェントの計画について述べる。
参考スコア（独自算出の注目度）: 2.2369578015657954
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Task planning for robots in real-life settings presents significant challenges. These challenges stem from three primary issues: the difficulty in identifying grounded sequences of steps to achieve a goal; the lack of a standardized mapping between high-level actions and low-level commands; and the challenge of maintaining low computational overhead given the limited resources of robotic hardware. We introduce EMPOWER, a framework designed for open-vocabulary online grounding and planning for embodied agents aimed at addressing these issues. By leveraging efficient pre-trained foundation models and a multi-role mechanism, EMPOWER demonstrates notable improvements in grounded planning and execution. Quantitative results highlight the effectiveness of our approach, achieving an average success rate of 0.73 across six different real-life scenarios using a TIAGo robot.
Abstract（参考訳）: 実生活環境におけるロボットのタスクプランニングは重要な課題である。これらの課題は、目標を達成するためのステップの基底的なシーケンスを特定することの難しさ、高レベルのアクションと低レベルのコマンドの標準化されたマッピングの欠如、ロボットハードウェアの限られたリソースを考えると、計算オーバーヘッドを低く抑えることの3つの問題に起因している。オープン・ボキャブラリ・オンライン・グラウンドディングのためのフレームワークであるEMPOWERを紹介し,これらの問題に対処するための具体的エージェントの計画について述べる。効率的な事前学習基盤モデルとマルチロール機構を活用することで、EMPOWERは、基盤となる計画と実行の顕著な改善を示す。 TIAGoロボットを用いて,6つの実生活シナリオの平均成功率0.73を達成し,本手法の有効性を定量的に評価した。

関連論文リスト

H-AIM: Orchestrating LLMs, PDDL, and Behavior Trees for Hierarchical Multi-Robot Planning [3.2800662172795114]
H-AIMは、新しいマルチロボットタスク計画フレームワークである。命令を解析し、計画ドメイン定義言語(PDDL)問題記述を生成するために、大きな言語モデル(LLM)を利用する。結果のプランを、リアクティブコントロールのための行動ツリーにコンパイルする。
論文参考訳（メタデータ） (2026-01-16T07:59:50Z)
Translating Flow to Policy via Hindsight Online Imitation [38.92060789765008]
階層型ロボットシステムの最近の進歩は、ハイレベルプランナーを活用してタスクプランを提案し、ロボットアクションを生成するための低レベルポリシーを提案する。オンラインインタラクションによる低レベル政策の改善を提案する。提案手法では,オンラインのロールアウトを収集し,達成した成果から対応するハイレベルな目標を振り返ってアノテートし,これらのハイレベルな経験を集約して,目標条件の模倣ポリシーを更新する。
論文参考訳（メタデータ） (2025-12-22T11:06:06Z)
OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning [50.45036742963495]
我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。 Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。 Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
論文参考訳（メタデータ） (2025-09-11T10:32:22Z)
GACL: Grounded Adaptive Curriculum Learning with Active Task and Performance Monitoring [37.95557495560936]
グラウンドド・アダプティブ・カリキュラム・ラーニング(英語: Grounded Adaptive Curriculum Learning)は、ロボティクスのカリキュラム学習用に設計されたフレームワークである。複雑なロボットタスク設計を一貫して扱うタスク表現を提案する。また,ロボットの現在の能力に適合した適応型カリキュラム生成を可能にする能動的性能追跡機構を提案する。
論文参考訳（メタデータ） (2025-08-05T01:32:37Z)
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文参考訳（メタデータ） (2025-05-05T02:38:58Z)
REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。 ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文参考訳（メタデータ） (2025-03-28T03:51:40Z)
Perceiving, Reasoning, Adapting: A Dual-Layer Framework for VLM-Guided Precision Robotic Manipulation [2.434849352801735]
VLM(Vision-Language Models)は、ロボット操作において顕著な可能性を示す。しかし、複雑な微調整タスクを高速かつ高精度で実行する際の課題は継続する。本稿では,ロボットの高速かつ高精度かつ誤り訂正可能な微調整を可能にするプログレッシブVLM計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-07T00:55:42Z)
Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning [17.989467671223043]
RMFSにおける超大規模MRTPのための効率的な多段階HRLベースのマルチロボットタスクプランナを構築した。最適性を確保するため、プランナーは集中型アーキテクチャで設計されているが、スケールアップと一般化の課題ももたらしている。我々のプランナーは、最大200台のロボットと1000台の検索ラックでRMFSの超大規模MRTPインスタンスにスケールアップできる。
論文参考訳（メタデータ） (2024-12-27T09:07:11Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-15T17:33:32Z)
A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文参考訳（メタデータ） (2024-08-11T14:57:57Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
Probabilistically Correct Language-based Multi-Robot Planning using Conformal Prediction [11.614036749291216]
本稿では,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsを提案する。提案したプランナは,計画実行が成功すると仮定して,ユーザ指定のタスク成功率を達成可能であることを示す。我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
論文参考訳（メタデータ） (2024-02-23T15:02:44Z)
Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-01-15T18:01:59Z)
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文参考訳（メタデータ） (2023-05-30T09:54:20Z)
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文参考訳（メタデータ） (2023-05-24T11:04:30Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。