論文の概要: SADP: Subgoal-Aware Diffusion Policy for Explainable Robots Learned from Foundation Model Generated Demonstrations
- arxiv url: http://arxiv.org/abs/2605.16871v1
- Date: Sat, 16 May 2026 08:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:41:47.589362
- Title: SADP: Subgoal-Aware Diffusion Policy for Explainable Robots Learned from Foundation Model Generated Demonstrations
- Title(参考訳): SADP:基礎モデルから学習した説明可能なロボットのサブゴール認識拡散政策
- Authors: Site Hu, Takato Horii,
- Abstract要約: サブゴール・アウェア拡散政策(SADP)は、人間の解釈可能なサブゴールを囲む政策実行を構成する。
軽量補助ヘッドは、サブゴール完了状態を予測し、ロボットが現在の実行段階を公開する。
UR5eロボットを用いたRLBenchシミュレーションと実世界の評価実験により,SADPがより高いタスク成功率を達成することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable robots require not only successful task execution but also the ability to expose internal decision-making process in a user-friendly manner. However, most imitation learning methods are trained solely on task-level demonstrations, without explicitly modeling subgoal structure or execution progress. This limitation is further exacerbated by the scarcity of subgoal-level supervision in standard robot learning datasets, which restricts the development of robots that can convey the subtasks they are executing during long-horizon manipulation. To address this issue, this paper proposes Subgoal-Aware Diffusion Policy (SADP), a framework that leverages foundation models to autonomously generate subgoal-annotated demonstrations and trains diffusion policies on these datasets. SADP structures policy execution around human-interpretable subgoals by conditioning action generation on both task-level and subgoal-level descriptions. A lightweight auxiliary head further predicts subgoal completion states, allowing the robot to expose its current execution stage and monitor subgoal progression. Experiments in RLBench simulations and real-world evaluations on a UR5e robot demonstrate that SADP achieves higher task success rates than strong task-conditioned diffusion baselines, while providing subgoal-level execution signals for monitoring progress and diagnosing failures. These results highlight that built-in, rather than post-hoc, interpretability can coexist with high task performance.
- Abstract(参考訳): 説明可能なロボットは、タスク実行の成功だけでなく、ユーザフレンドリな方法で内部決定プロセスを公開する能力も必要である。
しかし、ほとんどの模倣学習手法は、サブゴール構造や実行進捗を明示的にモデル化することなく、タスクレベルの実演にのみ訓練されている。
この制限は、標準的なロボット学習データセットにおけるサブゴールレベルの監督の不足によってさらに悪化し、長い水平操作中に実行しているサブタスクを伝達できるロボットの開発を制限する。
この問題に対処するため,本論文では,基礎モデルを活用して,サブゴールアノテートされたデモを自律的に生成し,これらのデータセット上で拡散ポリシーを訓練するフレームワークであるサブゴールアウェア拡散ポリシー(SADP)を提案する。
SADPは、タスクレベルとサブゴールレベルの両方の記述に対して、アクション生成を条件付けすることで、人間の解釈可能なサブゴール周辺でのポリシー実行を構造化する。
軽量補助ヘッドは、さらにサブゴール完了状態を予測し、ロボットが現在の実行段階を公開し、サブゴール進行を監視する。
UR5eロボットを用いたRLBenchシミュレーションおよび実世界評価実験により,SADPはタスク条件の強い拡散ベースラインよりも高いタスク成功率を達成するとともに,進捗監視や故障診断のためのサブゴールレベルの実行信号を提供することを示した。
これらの結果は、ポストホックではなくビルトインが、高いタスク性能と共存できることを示している。
関連論文リスト
- PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation [4.118262876469644]
本稿では,象徴的計画領域とデータ効率制御ポリシを自律的に構築する,スケーラブルなニューロシンボリック・フレームワークを提案する。
本手法は,実演をスキルに分割し,視覚言語モデル(VLM)を用いてスキルを分類する。
既知のコントローラは、シーン内の他のオブジェクトに1つのデモを投影することで、実世界のデータ拡張に活用することができる。
論文 参考訳(メタデータ) (2026-04-04T15:17:59Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models [9.608633915316252]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
現在のパラダイムは、教師付き微調整中の粗大でハイレベルなタスク命令に依存している。
スケーラブルなオフライン後トレーニングパイプラインと統合された,最初のサブタスク対応VLAフレームワークである方法を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:52:48Z) - CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control [39.17038025776311]
CAREは、ロボットタスク実行のためのVLAモデルをトレーニングするために設計されたフレームワークである。
CAREはビデオテキストペアのみを活用することで、明示的なアクションラベルの必要性を排除している。
結果は, ロボット制御におけるCAREのスケーラビリティ, 解釈可能性, 有効性を示す。
論文 参考訳(メタデータ) (2026-01-30T02:28:32Z) - Learning Diffusion Policy from Primitive Skills for Robot Manipulation [36.95867683028485]
拡散政策(DP)は近年,ロボット操作における行動の生成において大きな期待を抱いている。
本稿では,解釈可能なスキル学習と条件付きアクションプランニングを統合した,スキル条件付きDPであるSDPを提案する。
論文 参考訳(メタデータ) (2026-01-05T09:56:24Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。