論文の概要: FedVLA: Federated Vision-Language-Action Learning with Dual Gating Mixture-of-Experts for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2508.02190v1
- Date: Mon, 04 Aug 2025 08:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.255638
- Title: FedVLA: Federated Vision-Language-Action Learning with Dual Gating Mixture-of-Experts for Robotic Manipulation
- Title(参考訳): FedVLA:ロボットマニピュレーションのためのデュアルゲーティングミキサーを用いたフェデレーションビジョンランゲージ・アクション学習
- Authors: Cui Miao, Tao Chang, Meihan Wu, Hongbin Xu, Chun Li, Ming Li, Xiaodong Wang,
- Abstract要約: 視覚言語アクション(VLA)モデルは、ロボットがタスク実行のために言語命令を解釈できるようにすることにより、ロボット操作を大幅に進歩させた。
我々は、フェデレートVLA学習フレームワークであるFedVLAを提案し、パフォーマンスを損なうことなく、データのプライバシを保存する分散モデルトレーニングを可能にした。
- 参考スコア(独自算出の注目度): 11.080979029271019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have significantly advanced robotic manipulation by enabling robots to interpret language instructions for task execution. However, training these models often relies on large-scale user-specific data, raising concerns about privacy and security, which in turn limits their broader adoption. To address this, we propose FedVLA, the first federated VLA learning framework, enabling distributed model training that preserves data privacy without compromising performance. Our framework integrates task-aware representation learning, adaptive expert selection, and expert-driven federated aggregation, enabling efficient and privacy-preserving training of VLA models. Specifically, we introduce an Instruction Oriented Scene-Parsing mechanism, which decomposes and enhances object-level features based on task instructions, improving contextual understanding. To effectively learn diverse task patterns, we design a Dual Gating Mixture-of-Experts (DGMoE) mechanism, where not only input tokens but also self-aware experts adaptively decide their activation. Finally, we propose an Expert-Driven Aggregation strategy at the federated server, where model aggregation is guided by activated experts, ensuring effective cross-client knowledge transfer.Extensive simulations and real-world robotic experiments demonstrate the effectiveness of our proposals. Notably, DGMoE significantly improves computational efficiency compared to its vanilla counterpart, while FedVLA achieves task success rates comparable to centralized training, effectively preserving data privacy.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、ロボットがタスク実行のために言語命令を解釈できるようにすることにより、ロボット操作を大幅に進歩させた。
しかしながら、これらのモデルのトレーニングは、多くの場合、大規模なユーザ固有のデータに依存し、プライバシとセキュリティに対する懸念を高め、その結果、より広範な採用が制限される。
これを解決するために、フェデレートVLA学習フレームワークであるFedVLAを提案し、パフォーマンスを損なうことなく、データのプライバシを保存する分散モデルトレーニングを可能にする。
本フレームワークは,タスク認識型表現学習,適応的専門家選択,専門家主導のフェデレーションアグリゲーションを統合し,VLAモデルの効率的なプライバシ保護トレーニングを実現する。
具体的には,タスク命令に基づいてオブジェクトレベルの特徴を分解・拡張し,文脈的理解を向上するインストラクション指向のシーンパーシング機構を導入する。
多様なタスクパターンを効果的に学習するために、入力トークンだけでなく、自己認識の専門家がアクティベーションを適応的に決定するDGMoE(Dual Gating Mixture-of-Experts)機構を設計する。
最後に,フェデレートサーバにおいて,モデルアグリゲーションをアクティベートした専門家が指導し,効果的なクロスクライアントな知識伝達を確保するためのエキスパート駆動型アグリゲーション戦略を提案する。
特に、DGMoEはバニラに比べて計算効率を著しく改善し、FedVLAは集中トレーニングに匹敵するタスク成功率を獲得し、データプライバシを効果的に保存する。
関連論文リスト
- InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation [43.83789393525928]
InstructVLAは、大規模な視覚言語モデル(VLM)の柔軟な推論を保存し、主要な操作性能を提供するエンド・ツー・エンドの視覚言語モデルである。
InstructVLAは、新しいトレーニングパラダイムであるVision-Language-Action Instruction Tuning (VLA-IT)を導入している。
ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAよりも30.5%改善されている。
論文 参考訳(メタデータ) (2025-07-23T13:57:06Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - Federated Learning for Face Recognition via Intra-subject Self-supervised Learning [3.9899461012388504]
対象を含まない顔認識モデルを学習するためのFedFS (Federated Learning for Personal Face Recognition via intra-ject Self-supervised Learning framework)を提案する。
FedFSは、ローカルモデルとグローバルモデルの集約された特徴を活用して、オフザシェルフモデルの表現に協力する2つの重要なコンポーネントから構成される。
我々は,DigiFace-1MおよびVGGFaceデータセットの総合的な実験を行い,従来の手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-23T08:43:42Z) - Task-agnostic Decision Transformer for Multi-type Agent Control with Federated Split Training [34.80971707794908]
Federated Split Decision Transformer (FSDT)は、AIエージェント決定タスク用に明示的に設計された革新的なフレームワークである。
FSDTフレームワークは、トレーニングに分散データを活用することで、パーソナライズされたエージェントの複雑さをナビゲートする。
本研究は、分散オフライン強化学習データを効果的に活用し、強力なマルチタイプエージェント決定システムを実現するためのFSDTフレームワークの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-05-22T08:37:37Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。