論文の概要: Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2605.23477v1
- Date: Fri, 22 May 2026 10:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.316536
- Title: Semantically Structured Mixture-of-Experts for Compositional Robotic Manipulation
- Title(参考訳): 構成ロボットマニピュレーションのためのセマンティックなミクチャー・オブ・エクササイズ
- Authors: Chengyu Deng, Guanqi Chen, Yizhou Chen, Zejia Liu, Zhiwen Ruan, Guanhua Chen, Jia Pan,
- Abstract要約: 拡散ベースのポリシーは、正確なロボット操作のための新しい標準を確立したが、重要なスケーラビリティのボトルネックに直面している。
合成ロボット操作のためのSMODP(Semantically Structured Mixture-of-Experts Diffusion Policy)を導入する。
提案手法は,パラメータ効率が大幅に向上したマルチタスクベンチマークにおいて,代表拡散とMoEベースのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 21.358519910897652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based policies have established a new standard for precise robotic manipulation but face a critical scalability bottleneck: high-performance models are computationally expensive, while lightweight alternatives often fail to generalize across diverse multi-task environments. Mixture-of-Experts (MoE) architectures offer a promising path to efficiency by activating only a subset of parameters. However, existing MoE routing mechanisms typically rely on low-level noise or latent statistics, ignoring the compositional nature of manipulation tasks. This can fragment reusable behaviors across experts, limiting interpretability and transferability. We introduce Semantically Structured Mixture-of-Experts Diffusion Policy (SMoDP) for compositional robotic manipulation, a framework that grounds expert specialization in semantic task structure. SMoDP leverages a lightweight, inference-time skill predictor, supervised by offline annotations from Vision-Language Models (VLMs), to route action chunks to experts specialized for specific behavioral phases. To ensure robust assignment, we propose a dual contrastive alignment strategy that grounds multi-modal observations in language-defined skill semantics (Inter-modal) while enforcing routing consistency across visually distinct but functionally related behaviors (Intra-modal). Our approach outperforms representative diffusion and MoE-based baselines on multi-task benchmarks with significantly improved parameter efficiency and demonstrates effective compositional transfer to novel tasks through parameter-efficient fine-tuning. Project website: https://deng-cy20.github.io/SMoDP/
- Abstract(参考訳): 拡散ベースのポリシーは、正確なロボット操作のための新しい標準を確立しているが、重要なスケーラビリティのボトルネックに直面している。
Mixture-of-Experts (MoE)アーキテクチャは、パラメータのサブセットのみをアクティベートすることによって、効率性への有望なパスを提供する。
しかし、既存のMoEルーティングメカニズムは、通常、操作タスクの構成的性質を無視して、低レベルノイズまたは潜時統計に依存している。
これは専門家間で再利用可能な振る舞いを断片化し、解釈可能性と伝達可能性を制限する。
本稿では,セマンティック・コンストラクショナル・ミックス・オブ・エキスパート・ディフュージョン・ポリシー(SMODP)を導入し,セマンティック・タスク・ストラクチャを専門とするフレームワークであるコンストラクショナル・ロボティクスについて述べる。
SMoDPは、Vision-Language Models (VLM)のオフラインアノテーションによって管理される軽量で推論時のスキル予測器を活用し、特定の行動フェーズに特化した専門家にアクションチャンクをルーティングする。
そこで本稿では,言語定義スキルセマンティクス(Inter-modal)におけるマルチモーダル観測を基盤として,視覚的に異なるが機能的に関連する動作(Intra-modal)のルーティング整合性を実現する2つのコントラストアライメント戦略を提案する。
提案手法は,パラメータ効率が大幅に向上したマルチタスクベンチマークにおいて,代表拡散とMoEベースのベースラインよりも優れ,パラメータ効率の微調整による新規タスクへの効率的な構成伝達を示す。
プロジェクトウェブサイト: https://deng-cy20.github.io/SMoDP/
関連論文リスト
- Differentiable Mixture-of-Agents Incentivizes Swarm Intelligence of Large Language Models [17.7409616106227]
Differentiable Mixture-of-Agents (DMoA) は、推論中に弾性および適応的なエージェントの協調を可能にする自己進化型マルチエージェントフレームワークである。
DMoAは, 高い効率, 堅牢性, アンサンブル性を示しながら, 最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-05-15T07:54:46Z) - Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning [58.90602461025722]
大規模言語モデル(LLM)におけるマルチタスクインストラクトチューニングは、主にマルチタスクインストラクトチューニングによって駆動されている。
トレーニングパラダイムは、異なるタスク間で共有されたパラメータよりも勾配が矛盾するため、クロスタスク干渉と呼ばれる重要な問題に悩まされる。
本稿では,LLMパラメータを基本能力を表す高特異値LoRAエキスパートに分解するBADITを提案する。
6LLMのSuperNIベンチマークで広範な実験を行い、実験結果から、BADITはSOTA法より優れ、クロスタスク干渉の程度を緩和できることが示された。
論文 参考訳(メタデータ) (2026-05-07T05:08:58Z) - Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation [8.840077295284393]
MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-03-18T13:23:58Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - Expert Pyramid Tuning: Efficient Parameter Fine-Tuning for Expertise-Driven Task Allocation [7.579163774245479]
Expert Pyramid Tuning (EPT) は、コンピュータビジョンからPEFTの領域に多スケールのピラミッドの概念を統合する新しいアーキテクチャである。
EPT は SOTA MoE-LoRA の亜種を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-13T02:23:41Z) - Parameter Aware Mamba Model for Multi-task Dense Prediction [69.94454603308196]
本稿では,マルチタスク学習環境における高密度予測に特化して設計された,新しいデコーダベースのフレームワーク Aware Mamba Model (PAMM) を紹介する。
タスク固有のパラメータを統合および設定し、各タスクの固有の特性をキャプチャする、二重状態空間パラメータの専門家を特徴とする。
マルチディレクショナル・ヒルベルト走査法を用いて多角特徴系列を構築し、2次元データに対するシーケンスモデルの知覚能力を向上する。
論文 参考訳(メタデータ) (2025-11-18T13:48:00Z) - Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance [79.21541758879012]
Mixture-of-Experts (MoE) は計算効率を保ちながらモデルキャパシティをスケールするための強力なパラダイムとして登場した。
本稿では、専門家の専門化を促進する明示的なルーティングガイダンスを備えた2ステップルータを備えたMoEフレームワークであるProMoEを紹介する。
論文 参考訳(メタデータ) (2025-10-28T17:59:02Z) - Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。
ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。
本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:11:15Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。