論文の概要: PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.07060v1
- Date: Sun, 11 Jan 2026 21:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.734977
- Title: PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation
- Title(参考訳): PALM:長軸ロボットマニピュレーションのためのAffordance Reasoningによるプログレッシブ・アウェア・ポリシー学習
- Authors: Yuanzhe Liu, Jingyuan Zhu, Yuchen Mo, Gen Li, Xu Cao, Jin Jin, Yifan Shen, Zhengyuan Li, Tianjiao Yu, Wenzhen Yuan, Fangqiang Ding, Ismini Lourentzou,
- Abstract要約: PALMは、インタラクション中心のアベイランス推論とサブタスクプログレスキューに関するポリシー学習を構築する。
Palmはシミュレーションや実世界の実験において、一貫してベースラインを上回っている。
- 参考スコア(独自算出の注目度): 27.791908160098625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in vision-language-action (VLA) models have shown promise in robotic manipulation, yet they continue to struggle with long-horizon, multi-step tasks. Existing methods lack internal reasoning mechanisms that can identify task-relevant interaction cues or track progress within a subtask, leading to critical execution errors such as repeated actions, missed steps, and premature termination. To address these challenges, we introduce PALM, a VLA framework that structures policy learning around interaction-centric affordance reasoning and subtask progress cues. PALM distills complementary affordance representations that capture object relevance, contact geometry, spatial placements, and motion dynamics, and serve as task-relevant anchors for visuomotor control. To further stabilize long-horizon execution, PALM predicts continuous within-subtask progress, enabling seamless subtask transitions. Across extensive simulation and real-world experiments, PALM consistently outperforms baselines, achieving a 91.8% success rate on LIBERO-LONG, a 12.5% improvement in average length on CALVIN ABC->D, and a 2x improvement over real-world baselines across three long-horizon generalization settings.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルの最近の進歩はロボット操作において有望であることを示しているが、長い水平・多段階のタスクに苦戦し続けている。
既存のメソッドには、タスク関連インタラクションのキューを識別したり、サブタスク内で進捗を追跡できる内部推論機構が欠如しており、繰り返しアクションや失敗ステップ、早期終了といった致命的な実行エラーにつながる。
これらの課題に対処するために,対話中心のアベイランス推論とサブタスクプログレスキューを中心とした政策学習を構築するVLAフレームワークであるPALMを紹介した。
PALMは、オブジェクトの関連性、接触幾何学、空間配置、運動力学をキャプチャする補完的な空白表現を蒸留し、ビジュモータ制御のためのタスク関連アンカーとして機能する。
長期実行をさらに安定させるために、PALMは連続的なサブタスク内進行を予測し、シームレスなサブタスク遷移を可能にする。
CALVIN ABC->Dの平均長を12.5%改善し、3つの長距離一般化設定で現実世界のベースラインを2倍改善した。
関連論文リスト
- RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks [28.827331437876452]
データ収集、ポリシー学習、タスク実行を単一のVLM駆動コントローラで統合するエージェントロボットフレームワークであるRoboClawを提案する。
ポリシーレベルでは、RoboClaw氏はEntangled Action Pairs(EAP)を紹介している。
デプロイ中、同じエージェントが高レベルの推論を行い、学習されたポリシープリミティブを動的にオーケストレーションして長期のタスクを遂行する。
論文 参考訳(メタデータ) (2026-03-12T05:22:59Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - PARL-MT: Learning to Call Functions in Multi-Turn Conversation with Progress Awareness [57.020401590532686]
マルチターン関数呼び出しのためのLLMトレーニングに進捗認識を明示的に組み込むフレームワークであるPARL-MTを導入する。
PARL-MTは既存の手法よりも優れており、堅牢で効率的なマルチターン関数呼び出しの実現における進捗認識の有効性を強調している。
論文 参考訳(メタデータ) (2025-09-27T09:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。