論文の概要: VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation
- arxiv url: http://arxiv.org/abs/2508.01622v2
- Date: Thu, 02 Oct 2025 13:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.095104
- Title: VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation
- Title(参考訳): VFP:マルチモーダルロボットマニピュレーションのための変分フローマッチングポリシー
- Authors: Xuanran Zhai, Qianyou Zhao, Qiaojun Yu, Ce Hao,
- Abstract要約: 可変フローマッチングポリシー(VFP)は、タスクレベルとトラジェクトリレベルの両方のマルチモーダリティをキャプチャするフローマッチングポリシーである。
VFPは、標準的なフローベースベースラインよりもタスク成功率を49%向上させる。
- 参考スコア(独自算出の注目度): 3.986404588605909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-matching-based policies have recently emerged as a promising approach for learning-based robot manipulation, offering significant acceleration in action sampling compared to diffusion-based policies. However, conventional flow-matching methods struggle with multi-modality, often collapsing to averaged or ambiguous behaviors in complex manipulation tasks. To address this, we propose the Variational Flow-Matching Policy (VFP), which introduces a variational latent prior for mode-aware action generation and effectively captures both task-level and trajectory-level multi-modality. VFP further incorporates Kantorovich Optimal Transport (K-OT) for distribution-level alignment and utilizes a Mixture-of-Experts (MoE) decoder for mode specialization and efficient inference. We comprehensively evaluate VFP on 41 simulated tasks and 3 real-robot tasks, demonstrating its effectiveness and sampling efficiency in both simulated and real-world settings. Results show that VFP achieves a 49% relative improvement in task success rate over standard flow-based baselines in simulation, and further outperforms them on real-robot tasks, while still maintaining fast inference and a compact model size. More details are available on our project page: https://sites.google.com/view/varfp/
- Abstract(参考訳): フローマッチングベースのポリシーは、拡散ベースのポリシーと比較して、アクションサンプリングの大幅な加速を提供する、学習ベースのロボット操作のための有望なアプローチとして最近登場した。
しかし、従来のフローマッチング手法は、複雑な操作タスクにおいて、平均的あるいは曖昧な振る舞いに崩壊することが多いマルチモーダリティに苦しむ。
そこで本研究では,モード認識アクション生成に先立って変動型潜水器を導入し,タスクレベルとトラジェクトリレベルの両方を効果的にキャプチャする変動型フローマッチングポリシー(VFP)を提案する。
VFPはさらに、分散レベルのアライメントのためにK-OT(Kanrovich Optimal Transport)を導入し、モードの特殊化と効率的な推論のためにMixture-of-Experts (MoE)デコーダを使用している。
41のシミュレーションタスクと3つの実ロボットタスクのVFPを総合的に評価し、シミュレーションと実世界の両方の環境での有効性とサンプリング効率を実証した。
その結果、VFPは標準的なフローベースベースラインよりも49%のタスク成功率向上を実現し、高速な推論とコンパクトなモデルサイズを維持しつつ、実際のロボットタスクよりも優れていることがわかった。
詳細はプロジェクトのページにある。 https://sites.google.com/view/varfp/
関連論文リスト
- Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks [4.851402232145819]
我々は、生成フローネットワーク(GFlowNets)を用いた視覚言語モデル(VLMs)を微調整するフレームワークであるGFlowVLMを紹介する。
GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。
GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)といった複雑なタスクに有効であることを示す実証実験結果。
論文 参考訳(メタデータ) (2025-03-09T08:38:10Z) - Training-Free Graph Filtering via Multimodal Feature Refinement for Extremely Fast Multimodal Recommendation [8.462186629861046]
効率的なマルチモーダルレコメンデーションのためのマルチモーダルグラフフィルタリング(MM-GF)を提案する。
MM-GFは、グラフフィルタリング(GF)の概念に基づく、効率的かつ正確なマルチモーダルレコメンデーションに基づく、トレーニング不要な手法である。
実世界のベンチマークデータセットの実験は、MM-GFが推奨精度を最大13.35%向上するだけでなく、ランタイムを10秒未満で達成することで計算コストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-03-06T13:00:53Z) - IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。
しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。
本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。
提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文 参考訳(メタデータ) (2025-01-14T04:35:37Z) - VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction [21.061630022134203]
In-Context Operator Networks (ICONs) は、少数ショットのインコンテキスト学習を用いて様々な偏微分方程式の演算子を学習する。
既存のICONは各空間点を個々のトークンとして処理し、高次元の高密度データを処理する際に計算効率を著しく制限する。
本稿では,ビジョントランスフォーマーアーキテクチャを統合し,パッチワイズ操作による2次元データの効率的な処理を行うビジョン・イン・コンテキスト・オペレーター・ネットワーク(VICON)を提案する。
論文 参考訳(メタデータ) (2024-11-25T03:25:17Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Fast Trainable Projection for Robust Fine-Tuning [36.51660287722338]
ロバスト微調整は、競争力のある分散内分散(ID)性能を達成することを目的としている。
プロジェクションベースの微調整は頑健な微調整に成功している。
Fast Trainable Projectionはプロジェクションベースのファインチューニングアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-29T22:52:43Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。