論文の概要: ForeDiffusion: Foresight-Conditioned Diffusion Policy via Future View Construction for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2601.12925v1
- Date: Mon, 19 Jan 2026 10:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.860571
- Title: ForeDiffusion: Foresight-Conditioned Diffusion Policy via Future View Construction for Robot Manipulation
- Title(参考訳): フォアディフュージョン:ロボットマニピュレーションの今後の展望を通したフォアディフュージョン政策
- Authors: Weize Xie, Yi Ding, Ying He, Leilei Wang, Binwen Bai, Zheyi Zhao, Chenyang Wang, F. Richard Yu,
- Abstract要約: 拡散戦略は、高次元の動作シーケンスを段階的に denoising することによって、高度な視覚運動制御を行う。
本稿では,予測される将来のビュー表現を拡散過程に注入することにより,フォレスト・コンディションド・ディフュージョン(フォレスト・ディフュージョン)を提案する。
ForeDiffusionは、タスク全体の平均成功率80%を達成し、既存のメインストリーム拡散法を23%上回った。
- 参考スコア(独自算出の注目度): 37.67451041903772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion strategies have advanced visual motor control by progressively denoising high-dimensional action sequences, providing a promising method for robot manipulation. However, as task complexity increases, the success rate of existing baseline models decreases considerably. Analysis indicates that current diffusion strategies are confronted with two limitations. First, these strategies only rely on short-term observations as conditions. Second, the training objective remains limited to a single denoising loss, which leads to error accumulation and causes grasping deviations. To address these limitations, this paper proposes Foresight-Conditioned Diffusion (ForeDiffusion), by injecting the predicted future view representation into the diffusion process. As a result, the policy is guided to be forward-looking, enabling it to correct trajectory deviations. Following this design, ForeDiffusion employs a dual loss mechanism, combining the traditional denoising loss and the consistency loss of future observations, to achieve the unified optimization. Extensive evaluation on the Adroit suite and the MetaWorld benchmark demonstrates that ForeDiffusion achieves an average success rate of 80% for the overall task, significantly outperforming the existing mainstream diffusion methods by 23% in complex tasks, while maintaining more stable performance across the entire tasks.
- Abstract(参考訳): 拡散戦略は、ロボット操作のための有望な方法を提供するため、高次元の動作シーケンスを段階的にデノベートすることで、視覚運動制御を進歩させてきた。
しかし、タスクの複雑さが増大するにつれて、既存のベースラインモデルの成功率は大幅に減少する。
解析は、現在の拡散戦略が2つの制限に直面していることを示している。
まず、これらの戦略は条件として短期的な観測にのみ依存する。
第二に、トレーニングの対象は1つの認知的損失に限られており、これはエラーの蓄積を招き、偏差を把握させる。
これらの制約に対処するために,予測される将来のビュー表現を拡散プロセスに注入することにより,フォレスト・コンディションド・ディフュージョン(フォア・ディフュージョン)を提案する。
その結果、ポリシーは前方に向けられ、軌道偏差を補正することができる。
この設計の後、フォアディフュージョンは従来の偏執損失と将来の観測の一貫性損失を組み合わせた二重損失機構を採用し、統一された最適化を実現する。
AdroitスイートとMetaWorldベンチマークの大規模な評価は、ForeDiffusionがタスク全体の平均成功率80%を達成し、既存のメインストリーム拡散メソッドを23%上回り、タスク全体にわたってより安定したパフォーマンスを維持していることを示している。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising [22.356276412952738]
拡散モデルは、専門家のデモンストレーションを模倣してロボット操作の最先端の結果を得た。
具体的AIタスクの特定の特徴に認知過程を合わせることで、拡散ポリシーが効果的に機能できることが示される。
そこで本研究では,個体群をベースとした遺伝的デノナイジング手法を提案し,性能と安定性を両立させる。
論文 参考訳(メタデータ) (2025-10-24T19:52:41Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off [4.497768222083102]
Diffusion Denoized Smoothingは、モデルロバスト性を高めるための有望なテクニックとして登場している。
4つの異なる下流タスクを持つ3つのデータセットを3つの異なる逆攻撃アルゴリズムで解析する。
歪みのないクリーニング画像への高ノイズ拡散は、性能を最大57%低下させる。
我々は,拡散過程自体をターゲットとした新たな攻撃戦略を導入し,低雑音体制における防御を回避した。
論文 参考訳(メタデータ) (2025-05-21T14:49:24Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。