論文の概要: RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2510.14968v1
- Date: Thu, 16 Oct 2025 17:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.002678
- Title: RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks
- Title(参考訳): RDD:長期タスクにおけるプランナーアライメントのための検索型デモデコンプリザ
- Authors: Mingxuan Yan, Yuping Wang, Zechun Liu, Jiachen Li,
- Abstract要約: 本稿では,デモをサブタスクに自動的に分解するデモデコンポザを提案する。
本手法は,シミュレーションおよび実世界のタスクにおいて,最先端のサブタスクデコンポーザよりも優れる。
- 参考スコア(独自算出の注目度): 21.341051218915535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To tackle long-horizon tasks, recent hierarchical vision-language-action (VLAs) frameworks employ vision-language model (VLM)-based planners to decompose complex manipulation tasks into simpler sub-tasks that low-level visuomotor policies can easily handle. Typically, the VLM planner is finetuned to learn to decompose a target task. This finetuning requires target task demonstrations segmented into sub-tasks by either human annotation or heuristic rules. However, the heuristic subtasks can deviate significantly from the training data of the visuomotor policy, which degrades task performance. To address these issues, we propose a Retrieval-based Demonstration Decomposer (RDD) that automatically decomposes demonstrations into sub-tasks by aligning the visual features of the decomposed sub-task intervals with those from the training data of the low-level visuomotor policies. Our method outperforms the state-of-the-art sub-task decomposer on both simulation and real-world tasks, demonstrating robustness across diverse settings. Code and more results are available at rdd-neurips.github.io.
- Abstract(参考訳): 長期的タスクに対処するため、近年の階層的視覚言語アクション(VLA)フレームワークでは、視覚言語モデル(VLM)ベースのプランナーを使用して、複雑な操作タスクを低レベルのビズモータポリシーが容易に扱える単純なサブタスクに分解する。
通常、VLMプランナーは、目標タスクを分解することを学ぶために微調整される。
この微調整には、人間のアノテーションまたはヒューリスティックルールによってサブタスクにセグメント化されたターゲットタスクのデモが必要である。
しかし、ヒューリスティックなサブタスクは、タスクパフォーマンスを劣化させるビジュモータポリシーのトレーニングデータから大きく逸脱することができる。
これらの課題に対処するために,低レベルビジュモータポリシのトレーニングデータと,分解したサブタスク間隔の視覚的特徴を整合させることにより,デモをサブタスクに自動的に分解するRetrievalベースのデモストレーションデコンポスタ(RDD)を提案する。
提案手法は, シミュレーションと実世界のタスクにおいて, 最先端のサブタスクデコンポスタよりも優れ, 多様な設定における堅牢性を実証する。
コードやその他の結果はrdd-neurips.github.ioで公開されている。
関連論文リスト
- From Code to Action: Hierarchical Learning of Diffusion-VLM Policies [8.0703783175731]
ロボット操作の模倣学習はしばしば、限られた一般化とデータ不足に悩まされる。
本稿では,コード生成型視覚言語モデル(VLM)を活用した階層型フレームワークを提案する。
この設計は、解釈可能なポリシーの分解を可能にし、フラットなポリシーと比較して一般化を改善し、高レベルの計画と低レベルの制御を別々に評価できるようにする。
論文 参考訳(メタデータ) (2025-09-29T15:22:18Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Analysis and Prediction of NLP Models Via Task Embeddings [25.311690222754454]
我々は101ドルのNLPタスクのコレクションであるMetaEvalを提案する。
学習した埋め込みを条件にしながら、単一のトランスフォーマーをすべてのMetaEvalタスクに共同で適合させます。
結果として生じるタスクの埋め込みは、タスクの空間の新たな分析を可能にする。
論文 参考訳(メタデータ) (2021-12-10T16:23:24Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。