論文の概要: Act2Goal: From World Model To General Goal-conditioned Policy
- arxiv url: http://arxiv.org/abs/2512.23541v1
- Date: Mon, 29 Dec 2025 15:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.559036
- Title: Act2Goal: From World Model To General Goal-conditioned Policy
- Title(参考訳): Act2Goal:世界モデルから一般目標条件ポリシーへ
- Authors: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo,
- Abstract要約: Act2Goalは、ゴール条件付きビジュアルワールドモデルとマルチスケールの時間制御を統合した、ゴール条件付き操作ポリシーである。
Act2Goalは、自律的なインタラクションの数分以内に、配布外タスクに挑戦する上で、成功率を30%から90%に改善することを示す。
- 参考スコア(独自算出の注目度): 14.222177107215648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/
- Abstract(参考訳): ロボット操作タスクを表現的かつ正確な方法で特定することは、依然として中心的な課題である。
視覚的目標がコンパクトで曖昧なタスク仕様を提供する一方で、既存のゴール条件付きポリシーは、タスクの進捗を明示的にモデル化することなく、単一ステップのアクション予測に依存しているため、長い水平操作に苦慮することが多い。
目的条件付き視覚世界モデルとマルチスケール時間制御を統合した汎用的な目標条件付き操作ポリシーである Act2Goal を提案する。
現在の観測と対象の視覚的目標が与えられた場合、世界モデルは、長い水平構造をキャプチャする中間的な視覚状態のもっともらしいシーケンスを生成する。
このビジュアルプランをロバストな実行に変換するために,マルチスケール・テンポラル・ハッシング(MSTH)を導入し,その軌道を細粒度のクローズループ制御と,グローバルなタスク一貫性を保った疎遠フレームに分解する。
このポリシーは、これらの表現をエンドツーエンドのクロスアテンションを通じてモーターコントロールと組み合わせ、局所的な障害に反応しながらコヒーレントなロングホライゾン動作を可能にする。
Act2Goalは、新しいオブジェクト、空間レイアウト、環境への強力なゼロショットの一般化を実現する。
また,LORAをベースとしたファインタニングにより,後向きの目標を達成し,外部の監督なしに迅速な自律的改善を実現することで,報酬のないオンライン適応を可能にする。
実ロボット実験により、Act2Goalは自律的な相互作用の数分以内に配布外課題に挑戦する上で、成功率を30%から90%改善し、マルチスケールの時間制御によるゴール条件付き世界モデルが、堅牢な長距離操作に必要な構造化されたガイダンスを提供することを示した。
プロジェクトページ: https://act2goal.github.io/
関連論文リスト
- Envision: Embodied Visual Planning via Goal-Imagery Video Diffusion [61.63215708592008]
Embodied Visual Planningは、シーンが望ましい目標に向かってどのように進化するかを想像することで、操作タスクを可能にすることを目的としている。
ビデオ拡散モデルは、このような視覚的想像力の有望な基盤を提供する。
エージェントの視覚的計画を行う拡散型フレームワークであるEnvisionを提案する。
論文 参考訳(メタデータ) (2025-12-27T15:46:41Z) - Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical World Model [0.7284556903703034]
ディープアクティブ推論(Deep Active Inference)は、人間のゴール指向および探索的行動を説明するフレームワークである。
本稿では,世界モデル,アクションモデル,抽象世界モデルから構成される新しい深層活動推論フレームワークを提案する。
実世界のロボットを用いてオブジェクト操作タスクの枠組みを評価する。
論文 参考訳(メタデータ) (2025-12-01T17:41:01Z) - Weakly-supervised Latent Models for Task-specific Visual-Language Control [2.10305808315957]
本稿では,目標状態の監督のみを用いて,共有潜在空間における状態特異的な行動誘発シフトを学習するタスク固有潜在ダイナミクスモデルを提案する。
実験では、71%の成功を達成し、未知の画像や指示に一般化する。
論文 参考訳(メタデータ) (2025-11-23T07:18:28Z) - Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。
未知の物体や命令で 彼らの能力を評価し 改善することは 重要な課題です
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-11T09:13:10Z) - ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks [46.676862567167625]
ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
論文 参考訳(メタデータ) (2025-08-11T17:54:31Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。