Fugu-MT 論文翻訳(概要): VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation

論文の概要: VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation

arxiv url: http://arxiv.org/abs/2508.01622v1
Date: Sun, 03 Aug 2025 07:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:21.972248
Title: VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation
Title（参考訳）: VFP:マルチモーダルロボットマニピュレーションのための変分フローマッチングポリシー
Authors: Xuanran Zhai, Ce Hao,
Abstract要約: 変動フローマッチングポリシは、タスクレベルとトラジェクトリレベルの両方のマルチモーダリティをキャプチャする。 VFPは、標準的なフローベースベースラインよりもタスク成功率を相対的に49%向上させる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Flow-matching-based policies have recently emerged as a promising approach for learning-based robot manipulation, offering significant acceleration in action sampling compared to diffusion-based policies. However, conventional flow-matching methods struggle with multi-modality, often collapsing to averaged or ambiguous behaviors in complex manipulation tasks. To address this, we propose the Variational Flow-Matching Policy (VFP), which introduces a variational latent prior for mode-aware action generation and effectively captures both task-level and trajectory-level multi-modality. VFP further incorporates Kantorovich Optimal Transport (K-OT) for distribution-level alignment and utilizes a Mixture-of-Experts (MoE) decoder for mode specialization and efficient inference. We comprehensively evaluate VFP on 41 tasks across four benchmark environments, demonstrating its effectiveness and sampling efficiency in both task and path multi-modality settings. Results show that VFP achieves a $49\%$ relative improvement in task success rate over standard flow-based baselines, while maintaining fast inference and compact model size. More details are available on our project page: https://sites.google.com/view/varfp/
Abstract（参考訳）: フローマッチングベースのポリシーは、拡散ベースのポリシーと比較して、アクションサンプリングの大幅な加速を提供する、学習ベースのロボット操作のための有望なアプローチとして最近登場した。しかし、従来のフローマッチング手法は、複雑な操作タスクにおいて、平均的あるいは曖昧な振る舞いに崩壊することが多いマルチモーダリティに苦しむ。そこで本研究では,モード認識アクション生成に先立って変動型潜水器を導入し,タスクレベルとトラジェクトリレベルの両方を効果的にキャプチャする変動型フローマッチングポリシー(VFP)を提案する。 VFPはさらに、分散レベルのアライメントのためにK-OT(Kanrovich Optimal Transport)を導入し、モードの特殊化と効率的な推論のためにMixture-of-Experts (MoE)デコーダを使用している。 4つのベンチマーク環境における41のタスクのVFPを総合的に評価し、タスクとパスのマルチモダリティ設定においてその効率とサンプリング効率を実証した。その結果、VFPは、高速な推論とコンパクトなモデルサイズを維持しつつ、標準的なフローベースベースラインよりもタスク成功率を相対的に4,9\%向上させることがわかった。詳細はプロジェクトのページにある。 https://sites.google.com/view/varfp/

関連論文リスト

PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。 PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。 7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文参考訳（メタデータ） (2026-02-02T17:57:37Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation [23.382067451764396]
フローベースの生成モデルは、アクションの分布を学習するための有望なソリューションとして現れてきた。既存のフローベースのポリシーは、表現の崩壊、類似した視覚的表現を区別できないこと、そして正確な操作タスクの失敗に悩まされる。本稿では,分散正規化をMeanFlowに統合した新しいフローマッチングフレームワークDM1を提案する。
論文参考訳（メタデータ） (2025-10-09T07:12:20Z)
Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。 GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文参考訳（メタデータ） (2025-10-01T16:05:53Z)
Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文参考訳（メタデータ） (2025-09-02T07:51:59Z)
Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文参考訳（メタデータ） (2025-05-26T03:42:20Z)
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks [4.851402232145819]
我々は、生成フローネットワーク(GFlowNets)を用いた視覚言語モデル(VLMs)を微調整するフレームワークであるGFlowVLMを紹介する。 GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。 GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)といった複雑なタスクに有効であることを示す実証実験結果。
論文参考訳（メタデータ） (2025-03-09T08:38:10Z)
Training-Free Graph Filtering via Multimodal Feature Refinement for Extremely Fast Multimodal Recommendation [8.462186629861046]
効率的なマルチモーダルレコメンデーションのためのマルチモーダルグラフフィルタリング(MM-GF)を提案する。 MM-GFは、グラフフィルタリング(GF)の概念に基づく、効率的かつ正確なマルチモーダルレコメンデーションに基づく、トレーニング不要な手法である。実世界のベンチマークデータセットの実験は、MM-GFが推奨精度を最大13.35%向上するだけでなく、ランタイムを10秒未満で達成することで計算コストを大幅に削減することを示した。
論文参考訳（メタデータ） (2025-03-06T13:00:53Z)
IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文参考訳（メタデータ） (2025-02-17T23:22:49Z)
Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文参考訳（メタデータ） (2025-01-14T04:35:37Z)
VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction [21.061630022134203]
In-Context Operator Networks (ICONs) は、少数ショットのインコンテキスト学習を用いて様々な偏微分方程式の演算子を学習する。既存のICONは各空間点を個々のトークンとして処理し、高次元の高密度データを処理する際に計算効率を著しく制限する。本稿では,ビジョントランスフォーマーアーキテクチャを統合し,パッチワイズ操作による2次元データの効率的な処理を行うビジョン・イン・コンテキスト・オペレーター・ネットワーク(VICON)を提案する。
論文参考訳（メタデータ） (2024-11-25T03:25:17Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。 PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文参考訳（メタデータ） (2024-10-14T11:30:18Z)
MASSFormer: Mobility-Aware Spectrum Sensing using Transformer-Driven Tiered Structure [3.6194127685460553]
モビリティを意識したトランスフォーマー駆動構造(MASSFormer)をベースとした協調センシング手法を開発した。本稿では,モバイルプライマリユーザ(PU)とセカンダリユーザ(SU)の動的シナリオについて考察する。提案手法は, 堅牢性を示すために, 不完全な報告チャネルのシナリオ下で試験される。
論文参考訳（メタデータ） (2024-09-26T05:25:25Z)
Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文参考訳（メタデータ） (2024-09-02T09:11:28Z)
Riemannian Flow Matching Policy for Robot Motion Learning [5.724027955589408]
本稿では,ロボットビジュモータポリシーの学習と合成のための新しいモデルを提案する。 RFMPはよりスムーズな行動軌跡を提供し,推論時間を大幅に短縮することを示した。
論文参考訳（メタデータ） (2024-03-15T20:48:41Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Fast Trainable Projection for Robust Fine-Tuning [36.51660287722338]
ロバスト微調整は、競争力のある分散内分散(ID)性能を達成することを目的としている。プロジェクションベースの微調整は頑健な微調整に成功している。 Fast Trainable Projectionはプロジェクションベースのファインチューニングアルゴリズムである。
論文参考訳（メタデータ） (2023-10-29T22:52:43Z)
Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文参考訳（メタデータ） (2022-03-31T21:35:13Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)
Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。 FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文参考訳（メタデータ） (2021-09-13T08:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。