論文の概要: OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.17876v1
- Date: Mon, 20 Apr 2026 06:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.732351
- Title: OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation
- Title(参考訳): Oflow:ロバストロボットマニピュレーションのための物体認識時流マッチング
- Authors: Kuanning Wang, Ke Fan, Chenhao Qiu, Zeyu Shangguan, Yuqian Fu, Yanwei Fu, Daniel Seita, Xiangyang Xue,
- Abstract要約: VLAモデルは典型的には現在のフレームにのみ作用するが、将来の予測とオブジェクト認識推論は別々の潜在空間でしばしば学習される。
本稿では,時間的フォアシークエンスとオブジェクト認識推論を共通化することで,制約に対処するフレームワークOFlowを提案する。
提案手法は, 時間的フローマッチングを用いて将来の潜伏者を予測し, 物理的に関係のある手がかりを強調するオブジェクト認識表現に分解する。
- 参考スコア(独自算出の注目度): 55.56490813640669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust robotic manipulation requires not only predicting how the scene evolves over time, but also recognizing task-relevant objects in complex scenes. However, existing VLA models face two limitations. They typically act only on the current frame, while future prediction and object-aware reasoning are often learned in separate latent spaces. We propose OFlow (injecting Object-Aware Temporal Flow Matching into VLAs), a framework that addresses both limitations by unifying temporal foresight and object-aware reasoning in a shared semantic latent space. Our method forecasts future latents with temporal flow matching, factorizes them into object-aware representations that emphasize physically relevant cues while filtering task-irrelevant variation, and conditions continuous action generation on these predictions. By integrating OFlow into VLA pipelines, our method enables more reliable control under distribution shifts. Extensive experiments across LIBERO, LIBERO-Plus, MetaWorld, and SimplerEnv benchmarks and real-world tasks demonstrate that object-aware foresight consistently enhances robustness and success.
- Abstract(参考訳): ロバストなロボット操作では、シーンが時間とともにどのように進化するかを予測するだけでなく、複雑なシーンにおけるタスク関連オブジェクトを認識する必要がある。
しかし、既存のVLAモデルは2つの制限に直面している。
それらは典型的には現在のフレームにのみ作用するが、将来の予測とオブジェクト認識推論は別々の潜在空間でしばしば学習される。
本稿では,時間的フォアシスタンスとオブジェクト認識推論を共有意味潜在空間内で統一することで,両方の制約に対処するフレームワークであるOFlow(オブジェクト認識時流マッチングをVLAに注入する)を提案する。
提案手法は, 時間的フローマッチングを用いて将来の潜伏者を予測し, タスク非関連変動をフィルタリングしながら, 物理的に関係のあるキューを強調するオブジェクト認識表現に分解し, それらの予測に対して連続的な行動生成を行う。
VLAパイプラインにOFlowを組み込むことで,分散シフト下での信頼性の高い制御が可能となる。
LIBERO、LIBERO-Plus、MetaWorld、SimplerEnvベンチマーク、および現実世界のタスクにわたる大規模な実験は、オブジェクト認識のフォレストが一貫して堅牢性と成功を向上することを示している。
関連論文リスト
- F2F-AP: Flow-to-Future Asynchronous Policy for Real-time Dynamic Manipulation [62.06267255986041]
非同期推論はロボット操作における主要なパラダイムとして現れている。
本稿では,予測対象の流れを利用して将来の観測を合成する新しい枠組みを提案する。
本手法は複雑な動的操作タスクにおける応答性と成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-02T17:57:15Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - SHARP: Short-Window Streaming for Accurate and Robust Prediction in Motion Forecasting [53.74101174559609]
本稿では,進化するシーンに特化して焦点をあてた,ストリーミングベースの新たな動き予測フレームワークを提案する。
本手法は,入ってくる観測ウィンドウを段階的に処理し,インスタンス対応コンテキストストリーミングを利用して潜時エージェント表現の維持と更新を行う。
我々のモデルは,Argoverse 2マルチエージェントベンチマークのストリーミング推論における最先端性能を実現し,遅延を最小限に抑えながら,実世界の展開に適していることを強調した。
論文 参考訳(メタデータ) (2026-03-30T06:47:19Z) - VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models [27.12266806191131]
VLA(Vision-Language-Action)モデルは、ロボットが複雑な命令駆動タスクを実行できるように、急速に高度なインボディードインテリジェンスを備えている。
現在のアプローチはしばしば、操作をサポートする視覚的にスパースで構造的に重要な領域を創り出し、初期のタスクフェーズの不安定な振る舞いを引き起こす。
提案手法であるVLA-IAP(Interaction-Aligned Pruning)では,構造的アンカーを保存するための幾何学的事前メカニズムと動的スケジューリング戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T09:33:05Z) - Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining [56.62125584296097]
Keyframe-Chaining VLAは、キー履歴フレームを抽出し、長い水平依存関係をモデル化するフレームワークである。
本研究では,現在の実行フェーズに対する時間的関連性に基づいて,動的に履歴フレームを検索する進捗対応機構を設計する。
タスク成功率を測定するために,ManiSkillシミュレータ上に構築された4つの非マルコフ操作タスクスイートを紹介する。
論文 参考訳(メタデータ) (2026-03-02T05:26:29Z) - V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks [6.820118518027692]
V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-21T16:41:51Z) - Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。