論文の概要: Language-Conditioned Representations and Mixture-of-Experts Policy for Robust Multi-Task Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.24055v1
- Date: Tue, 28 Oct 2025 04:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.756012
- Title: Language-Conditioned Representations and Mixture-of-Experts Policy for Robust Multi-Task Robotic Manipulation
- Title(参考訳): ロバストなマルチタスクロボットマニピュレーションのための言語記述表現とMixture-of-Experts Policy
- Authors: Xiucheng Zhang, Yang Jiang, Hongwei Qing, Jiashuo Bai,
- Abstract要約: LMoE-DP(Language-Conditioned Visual Representation)モジュールとLanguage- Conditioned Mixture-of-Experts Density Policy(LMoE-DP)を組み合わせたフレームワークを提案する。
実ロボットのベンチマークでは、LCVRはAction Chunking with Transformers (ACT) と Diffusion Policy (DP) の成功率をそれぞれ33.75%、25%向上させた。
セマンティックグラウンドと専門家の専門化を組み合わせることで、堅牢で効率的なマルチタスク操作が可能になることを示す。
- 参考スコア(独自算出の注目度): 1.731102560795011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptual ambiguity and task conflict limit multitask robotic manipulation via imitation learning. We propose a framework combining a Language-Conditioned Visual Representation (LCVR) module and a Language-conditioned Mixture-ofExperts Density Policy (LMoE-DP). LCVR resolves perceptual ambiguities by grounding visual features with language instructions, enabling differentiation between visually similar tasks. To mitigate task conflict, LMoE-DP uses a sparse expert architecture to specialize in distinct, multimodal action distributions, stabilized by gradient modulation. On real-robot benchmarks, LCVR boosts Action Chunking with Transformers (ACT) and Diffusion Policy (DP) success rates by 33.75% and 25%, respectively. The full framework achieves a 79% average success, outperforming the advanced baseline by 21%. Our work shows that combining semantic grounding and expert specialization enables robust, efficient multi-task manipulation
- Abstract(参考訳): 知覚的曖昧さとタスクコンフリクトは、模倣学習によるマルチタスクロボット操作を制限する。
本稿では,LCVRモジュールとLMOE-DP(Language-conditioned Mixture-ofExperts Density Policy)を組み合わせたフレームワークを提案する。
LCVRは視覚的特徴を言語命令で基礎付けることで知覚の曖昧さを解消し、視覚的に類似したタスクの区別を可能にする。
タスク競合を軽減するため、LMoE-DPはスパース・エキスパートアーキテクチャを使用して、勾配変調によって安定化された異なるマルチモーダルな動作分布を専門化する。
実ロボットのベンチマークでは、LCVRはAction Chunking with Transformers (ACT) と Diffusion Policy (DP) の成功率をそれぞれ33.75%、25%向上させた。
完全なフレームワークは平均79%の成功を達成し、高度なベースラインを21%上回っている。
我々の研究は、セマンティックグラウンドと専門家の専門化を組み合わせることで、堅牢で効率的なマルチタスク操作を可能にすることを示した。
関連論文リスト
- dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Objective Soups: Multilingual Multi-Task Modeling for Speech Processing [69.52720282028385]
マルチ言語・マルチタスク音声処理(MSP)のための単一モデルの訓練は,タスク間の目的の相反によって著しく妨げられる。
本稿では,多目的MSPの3つの定式化について検討し,これらをthabfobjective soup recipesと呼ぶ。
我々の研究は、階層型MOOが最先端のMSPモデルを構築する上で、より効率的でスケーラブルなアプローチであることを実証している。
論文 参考訳(メタデータ) (2025-08-12T07:01:09Z) - Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control [22.74768543283102]
Graph-Fused Vision-Language-Action (GF-VLA)は、デュアルアームロボットシステムがタスクレベルの推論と実行を可能にするフレームワークである。
GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最も高いタスク関連性を持つ手や物体を識別する。
クロスハンド選択ポリシーは、明示的な幾何学的推論なしで最適な割り当てを推測する。
論文 参考訳(メタデータ) (2025-08-07T12:48:09Z) - MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。
我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。
実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文 参考訳(メタデータ) (2025-04-04T04:15:52Z) - ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。
ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。
本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-20T10:16:18Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation [14.354318744503088]
我々はマルチタスクロボット操作のためのエンドツーエンドの模倣学習エージェントであるSigma-Agentを紹介する。
Sigma-Agentは、視覚言語と現在の未来表現を強化するために、対照的なImitation Learning (Contrastive IL)モジュールを組み込んでいる。
Sigma-Agentは、さまざまな設定下で最先端のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-14T05:53:00Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。