論文の概要: Action-to-Action Flow Matching
- arxiv url: http://arxiv.org/abs/2602.07322v1
- Date: Sat, 07 Feb 2026 02:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.571431
- Title: Action-to-Action Flow Matching
- Title(参考訳): Action-to-Action Flow Matching
- Authors: Jindou Jia, Gen Li, Xiangyu Chen, Tuo An, Yuxuan Hu, Jingliang Li, Xinying Guo, Jianfei Yang,
- Abstract要約: 拡散に基づく政策は、最近、条件付き認知過程として行動予測を定式化することで、ロボット工学において顕著な成功を収めた。
本稿では,A2A(Action-to-Action Flow Match)を提案する。
A2Aは単一の推論ステップ(0.56msレイテンシ)で高品質なアクション生成を可能にし、視覚摂動に優れた堅牢性を示し、目に見えない構成に一般化する。
- 参考スコア(独自算出の注目度): 25.301629044539325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based policies have recently achieved remarkable success in robotics by formulating action prediction as a conditional denoising process. However, the standard practice of sampling from random Gaussian noise often requires multiple iterative steps to produce clean actions, leading to high inference latency that incurs a major bottleneck for real-time control. In this paper, we challenge the necessity of uninformed noise sampling and propose Action-to-Action flow matching (A2A), a novel policy paradigm that shifts from random sampling to initialization informed by the previous action. Unlike existing methods that treat proprioceptive action feedback as static conditions, A2A leverages historical proprioceptive sequences, embedding them into a high-dimensional latent space as the starting point for action generation. This design bypasses costly iterative denoising while effectively capturing the robot's physical dynamics and temporal continuity. Extensive experiments demonstrate that A2A exhibits high training efficiency, fast inference speed, and improved generalization. Notably, A2A enables high-quality action generation in as few as a single inference step (0.56 ms latency), and exhibits superior robustness to visual perturbations and enhanced generalization to unseen configurations. Lastly, we also extend A2A to video generation, demonstrating its broader versatility in temporal modeling. Project site: https://lorenzo-0-0.github.io/A2A_Flow_Matching.
- Abstract(参考訳): 拡散に基づく政策は、最近、条件付き認知過程として行動予測を定式化することで、ロボット工学において顕著な成功を収めた。
しかし、ランダムなガウスノイズからサンプリングする標準的な手法は、クリーンなアクションを生成するために複数の反復的なステップを必要とすることが多い。
本稿では,非インフォームドノイズサンプリングの必要性に挑戦し,ランダムサンプリングから初期化へ移行する新しいポリシーパラダイムであるA2Aを提案する。
受容的行動フィードバックを静的な条件として扱う既存の方法とは異なり、A2Aは歴史的受容的配列を利用し、それらを高次元の潜在空間に埋め込むことで行動生成の出発点となる。
この設計は、ロボットの物理的ダイナミクスと時間的連続性を効果的に捉えながら、コストのかかる反復的認知をバイパスする。
大規模な実験により、A2Aは高いトレーニング効率、高速な推論速度、一般化の改善を示す。
特に、A2Aは単一の推論ステップ(0.56msレイテンシ)で高品質なアクション生成を可能にし、視覚摂動に優れた堅牢性を示し、目に見えない構成に一般化する。
最後に、A2Aをビデオ生成に拡張し、時間的モデリングにおける幅広い汎用性を実証する。
プロジェクトサイト:https://lorenzo-0-0.github.io/A2A_Flow_Matching
関連論文リスト
- SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - Real-Time Iteration Scheme for Diffusion Policy [23.124189676943757]
本稿では,RTI(Real-Time Iteration)スキームにインスパイアされた新しい手法を導入し,推論を高速化する。
本稿では,ロボット操作における把握などの離散的な動作を効果的に扱うためのスケーリング手法を提案する。
提案方式は蒸留や政策の再設計を必要とせず,実行時の計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-07T13:49:00Z) - Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection [43.49146665908238]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて不可欠だが複雑なオープンセットタスクである。
摂動トレーニングを用いた新しい周波数誘導拡散モデルを提案する。
2次元離散コサイン変換(DCT)を用いて、高周波(局所)と低周波(球状)の運動成分を分離する。
論文 参考訳(メタデータ) (2024-12-04T05:43:53Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。