Fugu-MT 論文翻訳(概要): Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

論文の概要: Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

arxiv url: http://arxiv.org/abs/2603.22169v1
Date: Mon, 23 Mar 2026 16:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.787089
Title: Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning
Title（参考訳）: タスクレベルロボット計画のための閉ループ言語強化学習
Authors: Dmitrii Plotnikov, Iaroslav Kolomiets, Dmitrii Maliukov, Dmitrij Kosenkov, Daniia Zinniatullina, Artem Trandofilov, Georgii Gazaryan, Kirill Bogatikov, Timofei Kozlov, Igor Duchinskii, Mikhail Konenkov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou,
Abstract要約: 本稿では,モバイルロボットシステムにおけるタスクレベル計画の解釈のための新しい言語強化学習フレームワークを提案する。このフレームワークはクローズドループアーキテクチャに従い、物理的環境との相互作用を通じて反復的なポリシー改善を可能にする。提案手法は,実行不確実性下で複数段操作およびナビゲーションタスクを行う実移動ロボット上で検証される。
参考スコア（独自算出の注目度）: 1.6641413441634143
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We propose a new Verbal Reinforcement Learning (VRL) framework for interpretable task-level planning in mobile robotic systems operating under execution uncertainty. The framework follows a closed-loop architecture that enables iterative policy improvement through interaction with the physical environment. In our framework, executable Behavior Trees are repeatedly refined by a Large Language Model actor using structured natural-language feedback produced by a Vision-Language Model critic that observes the physical robot and execution traces. Unlike conventional reinforcement learning, policy updates in VRL occur directly at the symbolic planning level, without gradient-based optimization. This enables transparent reasoning, explicit causal feedback, and human-interpretable policy evolution. We validate the proposed framework on a real mobile robot performing a multi-stage manipulation and navigation task under execution uncertainty. Experimental results show that the framework supports explainable policy improvements, closed-loop adaptation to execution failures, and reliable deployment on physical robotic systems.
Abstract（参考訳）: 本稿では,実行不確実性下で動作している移動ロボットシステムにおいて,タスクレベル計画の解釈が可能な新しい言語強化学習(VRL)フレームワークを提案する。このフレームワークはクローズドループアーキテクチャに従い、物理的環境との相互作用を通じて反復的なポリシー改善を可能にする。本フレームワークでは,視覚言語モデル評論家が生成した構造化自然言語フィードバックを用いて,大規模言語モデルアクターによって実行可能行動木を繰り返し改良し,物理ロボットと実行トレースを観察する。従来の強化学習とは異なり、VRLのポリシー更新は、勾配に基づく最適化なしに、象徴的な計画レベルで直接行われる。これにより、透明性のある推論、明確な因果的フィードバック、そして人間の解釈可能なポリシーの進化が可能になる。提案手法は,実行不確実性下で複数段操作およびナビゲーションタスクを行う実移動ロボット上で検証される。実験結果から, 本フレームワークは, 説明可能な政策改善, 実行障害に対するクローズループ適応, 物理ロボットシステムへの信頼性の高い展開をサポートすることがわかった。

関連論文リスト

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。 textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文参考訳（メタデータ） (2026-01-26T06:16:17Z)
Vision-Language-Policy Model for Dynamic Robot Task Planning [8.427578025752219]
自然言語コマンドと自律実行のギャップは、ロボット工学にとってオープンな課題である。従来のロボットタスク計画アプローチは、高レベルのタスク推論で低レベルの実行をブリッジするのに苦労することが多い。動的ロボットタスク計画のための言語モデルに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-22T09:12:48Z)
Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文参考訳（メタデータ） (2025-10-22T16:43:29Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文参考訳（メタデータ） (2025-06-19T17:38:00Z)
A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees [1.3481665321936716]
本稿では,リアクティブプランナであるVLM(Vision-Language Models)とBT(Behavior Trees)を組み合わせて,リアルタイムの障害処理を実現する,統合された障害復旧フレームワークを提案する。当社のアプローチには、実行前の潜在的な障害をチェックする事前実行検証と、実行中の障害を検出し修正するリアクティブ障害処理が含まれている。我々は、ペグ挿入、オブジェクトソート、引き手の配置といったタスクにおいて、ABB YuMiロボットを用いた実世界の実験を通して、我々のフレームワークを評価する。
論文参考訳（メタデータ） (2025-03-19T13:40:56Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。