論文の概要: DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter
- arxiv url: http://arxiv.org/abs/2602.05513v1
- Date: Thu, 05 Feb 2026 10:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.879506
- Title: DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter
- Title(参考訳): DECO:プラグイン・タクティル・アダプタを用いた2次元デキスタラスマニピュレーションのためのデカップリング型多モード拡散変換器
- Authors: Xukun Li, Yu Sun, Lei Zhang, Bosheng Huang, Yibo Peng, Yuan Meng, Haojun Jiang, Shaoxuan Xie, Guacai Yao, Alois Knoll, Zhenshan Bing, Xinlong Wang, Zhenguo Sun,
- Abstract要約: DECOは、マルチモーダルコンディショニングを分離するDiTベースのポリシーである。
DECO-50は、触覚センサーを備えた2次元デキスタラスな操作データセットである。
- 参考スコア(独自算出の注目度): 50.77260297020937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overview of the Proposed DECO Framework.} DECO is a DiT-based policy that decouples multimodal conditioning. Image and action tokens interact via joint self attention, while proprioceptive states and optional conditions are injected through adaptive layer normalization. Tactile signals are injected via cross attention, while a lightweight LoRA-based adapter is used to efficiently fine-tune the pretrained policy. DECO is also accompanied by DECO-50, a bimanual dexterous manipulation dataset with tactile sensing, consisting of 4 scenarios and 28 sub-tasks, covering more than 50 hours of data, approximately 5 million frames, and 8,000 successful trajectories.
- Abstract(参考訳): DECOフレームワークの概要
DeCOはマルチモーダルコンディショニングを分離するDiTベースのポリシーである。
イメージトークンとアクショントークンは協調的自己注意によって相互作用するが、プロプリセプティブ状態とオプション条件は適応層正規化によって注入される。
触覚信号はクロスアテンションにより注入され、軽量のLoRAベースのアダプタは、事前訓練されたポリシーを効率的に微調整するために使用される。
DECO-50は4つのシナリオと28のサブタスクで構成され、50時間以上のデータ、約500万フレーム、8,000の成功した軌道をカバーしている。
関連論文リスト
- PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - EffiComm: Bandwidth Efficient Multi Agent Communication [11.311414617703308]
協調認識により、接続された車両はセンサー情報を交換し、各車両の盲点を克服することができる。
EffiCommは、最先端の3Dオブジェクト検出精度を維持しながら、先行技術で要求されるデータの40%未満を送信するエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-07-25T15:03:26Z) - ChicGrasp: Imitation-Learning based Customized Dual-Jaw Gripper Control for Delicate, Irregular Bio-products Manipulation [1.1909253751286513]
我々は、このタスクのために、エンドツーエンドのハードウェア-ソフトウェアの共同設計であるChicGraspを紹介する。
個別に提示した生のブロイラーカーカスでは,40.6%のグリップ・アンド・リフト成功率を達成した。
すべてのCAD、コード、データセットはオープンソースになる。
論文 参考訳(メタデータ) (2025-05-13T21:56:44Z) - CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception [14.619784179608361]
マルチエージェント協調知覚は、ロボット知覚タスクを協調的に行うために、知覚情報を共有することによって、各エージェントの能力を高める。
既存の代表的な協調認識システムは、大量の非臨界情報を含む中間特徴写像を伝達する。
本稿では,オブジェクトクエリをベースとした協調フレームワークであるCoCMTを紹介し,重要な特徴を選択的に抽出し伝達することによって,通信帯域幅を最大化する。
論文 参考訳(メタデータ) (2025-03-13T06:41:25Z) - YOLOv4: A Breakthrough in Real-Time Object Detection [0.0]
YOLOv4は様々なシナリオにおいて優れた検出を実現し、Tesla V100では毎秒65フレームで43.5%APを達成した。
論文 参考訳(メタデータ) (2025-02-06T15:45:18Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。