論文の概要: VADF: Vision-Adaptive Diffusion Policy Framework for Efficient Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.15938v1
- Date: Fri, 17 Apr 2026 10:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.880653
- Title: VADF: Vision-Adaptive Diffusion Policy Framework for Efficient Robotic Manipulation
- Title(参考訳): VADF:効率的なロボットマニピュレーションのための視覚適応拡散政策フレームワーク
- Authors: Xinglei Yu, Zhenyang Liu, Shufeng Nan, Simo Wu, Yanwei Fu,
- Abstract要約: 拡散政策はロボット操作において主流になりつつあるが、一様サンプリングとサンプル難易度認識の欠如により、強い負のクラス不均衡に悩まされている。
本稿では,視覚駆動型デュアルアダプティブフレームワークであるVADF(Vision-Adaptive Diffusion Policy Framework)を提案する。
- 参考スコア(独自算出の注目度): 26.316939305877145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies are becoming mainstream in robotic manipulation but suffer from hard negative class imbalance due to uniform sampling and lack of sample difficulty awareness, leading to slow training convergence and frequent inference timeout failures. We propose VADF (Vision-Adaptive Diffusion Policy Framework), a vision-driven dual-adaptive framework that significantly reduces convergence steps and achieves early success in inference, with model-agnostic design enabling seamless integration into any diffusion policy architecture. During training, we introduce Adaptive Loss Network (ALN), a lightweight MLP-based loss predictor that quantifies per-step sample difficulty in real time. Guided by hard negative mining, it performs weighted sampling to prioritize high-loss regions, enabling adaptive weight updates and faster convergence. In inference, we design the Hierarchical Vision Task Segmenter (HVTS), which decomposes high-level task instructions into multi-stage low-level sub-instructions based on visual input. It adaptively segments action sequences into simple and complex subtasks by assigning shorter noise schedules with longer direct execution sequences to simple actions, and longer noise steps with shorter execution sequences to complex ones, thereby dramatically reducing computational overhead and significantly improving the early success rate.
- Abstract(参考訳): 拡散政策はロボット操作において主流になっているが、一様サンプリングとサンプル難易度認識の欠如により、強い負のクラス不均衡に悩まされ、訓練の収束が遅くなり、頻繁に推論タイムアウト障害が発生する。
VADF(Vision-Adaptive Diffusion Policy Framework)は,任意の拡散ポリシーアーキテクチャにシームレスに統合可能なモデルに依存しない設計で,収束ステップを著しく低減し,推論の早期成功を実現する,視覚駆動型デュアルアダプティブフレームワークである。
トレーニング中、我々は、ステップごとのサンプルの難易度をリアルタイムで定量化する軽量MLPベースの損失予測器であるAdaptive Loss Network (ALN)を導入する。
硬い負の採鉱によって導かれ、高損失領域を優先するために加重サンプリングを行い、適応的な加重更新とより速い収束を可能にする。
本稿では,ハイレベルタスク命令を視覚入力に基づく多段階低レベルサブ命令に分解する階層型視覚タスクセグメンタ(HVTS)を設計する。
アクションシーケンスを単純で複雑なサブタスクに適応的に分割し、より長い直接実行シーケンスの短いノイズスケジュールを単純なアクションに割り当て、より短い実行シーケンスの短いノイズステップを複雑なアクションに割り当て、計算オーバーヘッドを劇的に減らし、初期の成功率を大幅に改善する。
関連論文リスト
- DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models [61.26694413585136]
DA-PTQ (Drift-Aware Post-Training Quantization) は、逐次決定過程に対するドリフト-アウェア最適化問題として量子化を定式化する。
DA-PTQはキネマティックドリフトを著しく低減し、低ビット設定下での完全精度モデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2026-04-13T14:51:43Z) - Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance [47.605498477489306]
補助的な訓練対象を持つ高度な微調整法は、性能を改善し、収束ステップの数を減らすことができる。
本稿では,事前学習したVLAモデルが,標準的な教師付き微調整における性能向上や適応コストの低減に失敗するケースに対して,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2026-03-26T17:14:57Z) - Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation [16.82426251068573]
リンク予測(LP)は、グラフ機械学習において重要なタスクである。
既存の手法は、疎結合性からの限られた監督を含む重要な課題に直面している。
これらの課題に対処するためのソリューションとして,事前学習について検討する。
論文 参考訳(メタデータ) (2025-08-06T17:10:31Z) - Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。