論文の概要: FALCON: Actively Decoupled Visuomotor Policies for Loco-Manipulation with Foundation-Model-Based Coordination
- arxiv url: http://arxiv.org/abs/2512.04381v1
- Date: Thu, 04 Dec 2025 02:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.115531
- Title: FALCON: Actively Decoupled Visuomotor Policies for Loco-Manipulation with Foundation-Model-Based Coordination
- Title(参考訳): FALCON: ファンデーションモデルに基づくコーディネーションによるロコマニピュレーションのための能動的分離型ビズモータ政策
- Authors: Chengyang He, Ge Sun, Yue Bai, Junkai Lu, Jiadong Zhao, Guillaume Sartoretti,
- Abstract要約: FoundAtion-model-guided decoupled LoCO-maNipulation visuomotor Policy (FALCON)について述べる。
FALCONはモジュラー拡散ポリシーと、コーディネータとしての視覚言語基盤モデルを組み合わせる。
我々はFALCONをナビゲーション、精密なエンドエフェクタ配置、厳密なベースアーム調整を必要とする2つの困難なロコ操作タスクで評価した。
- 参考スコア(独自算出の注目度): 14.277860121790075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FoundAtion-model-guided decoupled LoCO-maNipulation visuomotor policies (FALCON), a framework for loco-manipulation that combines modular diffusion policies with a vision-language foundation model as the coordinator. Our approach explicitly decouples locomotion and manipulation into two specialized visuomotor policies, allowing each subsystem to rely on its own observations. This mitigates the performance degradation that arise when a single policy is forced to fuse heterogeneous, potentially mismatched observations from locomotion and manipulation. Our key innovation lies in restoring coordination between these two independent policies through a vision-language foundation model, which encodes global observations and language instructions into a shared latent embedding conditioning both diffusion policies. On top of this backbone, we introduce a phase-progress head that uses textual descriptions of task stages to infer discrete phase and continuous progress estimates without manual phase labels. To further structure the latent space, we incorporate a coordination-aware contrastive loss that explicitly encodes cross-subsystem compatibility between arm and base actions. We evaluate FALCON on two challenging loco-manipulation tasks requiring navigation, precise end-effector placement, and tight base-arm coordination. Results show that it surpasses centralized and decentralized baselines while exhibiting improved robustness and generalization to out-of-distribution scenarios.
- Abstract(参考訳): 本稿では、モジュラー拡散ポリシーと視覚言語基礎モデルをコーディネータとして組み合わせたロコ操作のためのフレームワークである、FoundAtion-model-guidled LoCO-maNipulation visuomotor Policy (FALCON)を提案する。
当社のアプローチでは,ロコムーブメントと操作を2つの特別なビジュモータポリシーに明確に分離し,それぞれのサブシステムが独自の観察に頼れるようにしている。
このことは、1つのポリシーが不均一で、移動や操作による潜在的にミスマッチした観察を融合せざるを得ないときに生じるパフォーマンス劣化を緩和する。
我々の重要な革新は、これらの2つの独立政策間の調整をビジョン言語基盤モデルを通じて復元することであり、これは、グローバルな観察と言語命令を、両方の拡散ポリシーを共用した埋め込み条件にエンコードする。
このバックボーン上に、タスクステージのテキスト記述を用いて、手動の位相ラベルを使わずに、個別の位相と連続的な進行推定を推測するフェーズプログレスヘッドを導入する。
遅延空間をさらに構造化するために、アームとベースアクション間のサブシステム間の互換性を明示的に符号化した協調対応のコントラスト損失を組み込む。
我々はFALCONをナビゲーション、精密なエンドエフェクタ配置、厳密なベースアーム調整を必要とする2つの困難なロコ操作タスクで評価した。
その結果,集中型・分散型ベースラインを超越し,ロバスト性の向上とアウト・オブ・ディストリビューションシナリオへの一般化を示した。
関連論文リスト
- Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - VITA: Vision-to-Action Flow Matching Policy [27.783132918359545]
VITAはノイズフリーで条件なしのポリシー学習フレームワークである。
フローマッチングを使って視覚表現を潜在アクションにマッピングする。
ALOHAとRoomimicの8つのシミュレーションと2つの実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-07-17T15:41:57Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。