論文の概要: Information Filtering via Variational Regularization for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2601.21926v2
- Date: Sun, 01 Feb 2026 09:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.017111
- Title: Information Filtering via Variational Regularization for Robot Manipulation
- Title(参考訳): ロボットマニピュレーションのための変分正規化による情報フィルタリング
- Authors: Jinhao Zhang, Wenlong Xia, Yaojia Wang, Zhexuan Zhou, Huizhe Li, Yichen Lai, Haoming Song, Youmin Gong, Jie Mei,
- Abstract要約: 本稿では,時間条件付きガウス関数をバックボーン上に課し,KL分割正規化器を適用する軽量モジュールを提案する。
提案手法では,RoboTwin2.0で6.1%,AdroitとMetaWorldで4.1%向上し,新たな最先端の成果が得られた。
- 参考スコア(独自算出の注目度): 2.564607372946005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based visuomotor policies built on 3D visual representations have achieved strong performance in learning complex robotic skills. However, most existing methods employ an oversized denoising decoder. While increasing model capacity can improve denoising, empirical evidence suggests that it also introduces redundancy and noise in intermediate feature blocks. Crucially, we find that randomly masking backbone features at inference time (without changing training) can improve performance, confirming the presence of task-irrelevant noise in intermediate features. To this end, we propose Variational Regularization (VR), a lightweight module that imposes a timestep-conditioned Gaussian over backbone features and applies a KL-divergence regularizer, forming an adaptive information bottleneck. Extensive experiments on three simulation benchmarks (RoboTwin2.0, Adroit, and MetaWorld) show that, compared to the baseline DP3, our approach improves the success rate by 6.1% on RoboTwin2.0 and by 4.1% on Adroit and MetaWorld, achieving new state-of-the-art results. Real-world experiments further demonstrate that our method performs well in practical deployments. Code will released.
- Abstract(参考訳): 3次元視覚表現上に構築された拡散に基づくビジュモータポリシは、複雑なロボットスキルの学習において、高いパフォーマンスを達成している。
しかし、既存のほとんどのメソッドではデノナイジングデコーダが大きすぎる。
モデル容量の増加はデノーミングを改善する可能性があるが、実証的な証拠は中間的特徴ブロックに冗長性とノイズをもたらすことを示唆している。
重要なことは、推論時に無作為にマスキングするバックボーン機能は(トレーニングを変更せずに)性能を向上し、中間機能にタスク非関連ノイズが存在することを確認することである。
そこで本研究では,時間条件付きガウス関数をバックボーン上に課し,KL分割正規化器を適用して適応情報ボトルネックを形成する軽量モジュールである変分正規化(VR)を提案する。
3つのシミュレーションベンチマーク(RoboTwin2.0,Adroit,MetaWorld)の大規模な実験により,ベースラインDP3と比較して,RoboTwin2.0で6.1%,AdroitとMetaWorldで4.1%向上し,新たな最先端結果が得られた。
さらに実世界の実験により,本手法が実用化に有効であることを実証した。
コードはリリースされる。
関連論文リスト
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation [53.750389076941396]
拡散に基づくビジュモータポリシーは反復的認知を通じて多モーダルな動作分布をキャプチャするが、その高い推論遅延はリアルタイムロボット制御を制限する。
Ada3Driftは,専門家のデモモードに対して予測された行動を引き付ける訓練時間ドリフト場を学習する。
Ada3Driftは、拡散ベースの代替よりも10倍の関数評価を必要としながら、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-12T14:36:53Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - Noise2Score3D:Unsupervised Tweedie's Approach for Point Cloud Denoising [0.0]
Noise2Score3Dはノイズデータから直接基礎となる点雲分布の勾配を学習する。
提案手法は,既存の教師なし手法における反復処理を回避するため,単一のステップで推論を行う。
本稿では,未知の雑音パラメータを推定できる基準であるTtal Variation for Point Cloudを紹介する。
論文 参考訳(メタデータ) (2025-02-24T04:23:21Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。