論文の概要: FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2506.16201v1
- Date: Thu, 19 Jun 2025 10:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.03309
- Title: FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation
- Title(参考訳): FlowRAM: ロボットマニピュレーションのための領域対応マンバフレームワークと接地フローマッチングポリシー
- Authors: Sen Wang, Le Wang, Sanping Zhou, Jingyi Tian, Jiayi Li, Haowen Sun, Wei Tang,
- Abstract要約: FlowRAMは、生成モデルを利用して地域認識を実現する新しいフレームワークである。
FlowRAMは4段階未満のステップで、さまざまな現実世界のタスクに対して物理的に妥当なアクションを生成することができる。
- 参考スコア(独自算出の注目度): 34.045199714747596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation in high-precision tasks is essential for numerous industrial and real-world applications where accuracy and speed are required. Yet current diffusion-based policy learning methods generally suffer from low computational efficiency due to the iterative denoising process during inference. Moreover, these methods do not fully explore the potential of generative models for enhancing information exploration in 3D environments. In response, we propose FlowRAM, a novel framework that leverages generative models to achieve region-aware perception, enabling efficient multimodal information processing. Specifically, we devise a Dynamic Radius Schedule, which allows adaptive perception, facilitating transitions from global scene comprehension to fine-grained geometric details. Furthermore, we integrate state space models to integrate multimodal information, while preserving linear computational complexity. In addition, we employ conditional flow matching to learn action poses by regressing deterministic vector fields, simplifying the learning process while maintaining performance. We verify the effectiveness of the FlowRAM in the RLBench, an established manipulation benchmark, and achieve state-of-the-art performance. The results demonstrate that FlowRAM achieves a remarkable improvement, particularly in high-precision tasks, where it outperforms previous methods by 12.0% in average success rate. Additionally, FlowRAM is able to generate physically plausible actions for a variety of real-world tasks in less than 4 time steps, significantly increasing inference speed.
- Abstract(参考訳): 高精度タスクにおけるロボット操作は、精度とスピードが要求される多くの産業や現実のアプリケーションにとって不可欠である。
しかし、現在の拡散に基づく政策学習法は、推論中に反復的復調処理によって計算効率が低下することが多い。
さらに, これらの手法は, 3次元環境における情報探索の促進のための生成モデルの可能性を完全には探求していない。
提案するFlowRAMは,生成モデルを利用して地域認識を実現し,効率的なマルチモーダル情報処理を実現する。
具体的には、グローバルなシーン理解から微粒な幾何学的詳細への移行を容易にし、適応的な知覚を可能にする動的ラディウススケジュールを考案する。
さらに、線形計算複雑性を保ちつつ、状態空間モデルを統合してマルチモーダル情報を統合する。
さらに、条件付きフローマッチングを用いて、決定論的ベクトル場を後退させ、性能を維持しながら学習プロセスを簡素化することで、アクションポーズを学習する。
本稿では,既存のベンチマークRLBenchにおけるFlowRAMの有効性を検証するとともに,最先端の性能を実現する。
その結果,FlowRAMは特に高精度なタスクにおいて,従来の手法を平均成功率12.0%で上回り,顕著な改善を実現していることがわかった。
さらに、FlowRAMは4秒未満のステップで、様々な現実世界のタスクに対して物理的に妥当なアクションを生成することができ、推論速度が大幅に向上する。
関連論文リスト
- Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - SMamba: Sparse Mamba for Event-based Object Detection [17.141967728323714]
トランスフォーマーに基づく手法は、グローバルなモデリング能力のため、イベントベースのオブジェクト検出において顕著な性能を達成している。
コストを軽減するために、窓の注意に基づくスペーサー化戦略を提案し、重要でない地域を排除している研究者もいる。
本研究では,グローバルなモデリング能力を維持しつつ,計算労力を削減するために適応的なスカラー化を行うSparse Mambaを提案する。
論文 参考訳(メタデータ) (2025-01-21T08:33:32Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。