論文の概要: Towards Dexterous Embodied Manipulation via Deep Multi-Sensory Fusion and Sparse Expert Scaling
- arxiv url: http://arxiv.org/abs/2602.19764v1
- Date: Mon, 23 Feb 2026 12:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.644681
- Title: Towards Dexterous Embodied Manipulation via Deep Multi-Sensory Fusion and Sparse Expert Scaling
- Title(参考訳): 深部多感波核融合とスパースエキスパートスケーリングによるデキサス・エボディード・マニピュレーションに向けて
- Authors: Yirui Sun, Guangyu Zhuge, Keliang Liu, Jie Gu, Zhihao xia, Qionglin Ren, Chunxu tian, Zhongxue Ga,
- Abstract要約: DeMUSEは、RGB、深さ、および6軸の力を統一されたシリアライズストリームに統合するフレームワークである。
AdaMNは、モダリティを意識した特徴の再検討、表現の不均衡の緩和に使用される。
統合認知目的は、物理的整合性を確保するために、環境進化とアクションシーケンスを同期的に合成する。
- 参考スコア(独自算出の注目度): 6.026400295270904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realizing dexterous embodied manipulation necessitates the deep integration of heterogeneous multimodal sensory inputs. However, current vision-centric paradigms often overlook the critical force and geometric feedback essential for complex tasks. This paper presents DeMUSE, a Deep Multimodal Unified Sparse Experts framework leveraging a Diffusion Transformer to integrate RGB, depth, and 6-axis force into a unified serialized stream. Adaptive Modality-specific Normalization (AdaMN) is employed to recalibrate modality-aware features, mitigating representation imbalance and harmonizing the heterogeneous distributions of multi-sensory signals. To facilitate efficient scaling, the architecture utilizes a Sparse Mixture-of-Experts (MoE) with shared experts, increasing model capacity for physical priors while maintaining the low inference latency required for real-time control. A Joint denoising objective synchronously synthesizes environmental evolution and action sequences to ensure physical consistency. Achieving success rates of 83.2% and 72.5% in simulation and real-world trials, DeMUSE demonstrates state-of-the-art performance, validating the necessity of deep multi-sensory integration for complex physical interactions.
- Abstract(参考訳): 異種多モード感覚入力の深い統合が必要である。
しかし、現在のビジョン中心のパラダイムは、しばしば複雑なタスクに不可欠な臨界力と幾何学的フィードバックを見落としている。
本稿では,Diffusion Transformerを利用した深層マルチモーダル統一スパースエキスパートフレームワークDeMUSEについて述べる。
アダプティブ・モダリティ固有正規化(AdaMN)は、モダリティを意識した特徴を再分類し、表現の不均衡を緩和し、多感覚信号の不均一分布を調和させる。
効率的なスケーリングを容易にするため、アーキテクチャでは、共有専門家とSparse Mixture-of-Experts(MoE)を使用して、物理前のモデル容量を増やしながら、リアルタイム制御に必要な低推論レイテンシを維持できる。
統合認知目的は、物理的整合性を確保するために、環境進化とアクションシーケンスを同期的に合成する。
シミュレーションと実世界の試行において83.2%と72.5%の成功率を達成するために、DeMUSEは最先端のパフォーマンスを示し、複雑な物理的相互作用のための深層多感的な統合の必要性を検証する。
関連論文リスト
- DeepONet-accelerated Bayesian inversion for moving boundary problems [0.0]
この研究は、ニューラルネットワークの学習が、移動境界系の高速で正確なエミュレータを構築するための強力で柔軟なフレームワークを提供することを示した。
Deep Operator Network (DeepONet) アーキテクチャを用いて, 多孔質媒質中における単相ダーシー流における境界問題移動のための効率的なサロゲートモデルを構築した。
樹脂転写成形法(RTM)プロセスを用いて製造した複合材料に対する繊維補強材の透過性とポーシティを推定することにより, インバージョンフレームワークを実証した。
論文 参考訳(メタデータ) (2025-12-23T11:22:26Z) - MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-09-27T19:43:04Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - MHSA: A Multi-scale Hypergraph Network for Mild Cognitive Impairment Detection via Synchronous and Attentive Fusion [4.526574526136158]
同期核融合によるMCI検出のためのマルチスケールハイパーグラフネットワークを提案する。
本手法では、関心領域のスペクトル領域における位相同期関係を計算するために、位相同期値(PLV)を用いる。
PLV係数は動的に戦略を調整し,時間スペクトル融合行列に基づいて動的ハイパーグラフをモデル化する。
論文 参考訳(メタデータ) (2024-12-11T02:59:57Z) - Multi-Visual-Inertial System: Analysis, Calibration and Estimation [26.658649118048032]
マルチビジュアル・慣性システム(MVIS)の状態を推定し,センサ融合アルゴリズムを開発した。
我々は、関連する視覚慣性センサーの完全な校正に興味を持っている。
論文 参考訳(メタデータ) (2023-08-10T02:47:36Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。