論文の概要: Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.03426v1
- Date: Tue, 05 May 2026 07:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.810006
- Title: Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models
- Title(参考訳): 条件付きリプレーティングパラメータ:不均一な視覚-言語モデルのフェデレートアライメント
- Authors: Shule Lu, Yujing Wang, Hainan Zhang, Xiaoshan Yang, Hongwei Zheng, Yongxin Tong, Changsheng Xu, Zhiming Zheng,
- Abstract要約: VLM(Vision-Language Models)は、医療や金融といったプライバシに敏感な分野において大きな可能性を秘めている。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを組み合わせた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化とクロスクライアント適応性において、フェデレートされたアライメントベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 63.70401095689976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have broad potential in privacy-sensitive domains such as healthcare and finance, yet strict data-sharing constraints render centralized training infeasible. Federated Learning mitigates this issue by enabling decentralized training, but practical deployments face challenges due to client heterogeneity in computational resources, application requirements, and model architectures. Under extreme model and data heterogeneity, replacing parameter aggregation with preference-based collaboration offers a more suitable interface, as it eliminates the need for direct parameter or data exchange. Motivated by this, we propose MoR, a federated alignment framework that combines GRPO with Mixture-of-Rewards for heterogeneous VLMs. In MoR, each client locally trains a reward model from local preference annotations, capturing specific evaluation signals without exposing raw data. To combine these heterogeneous supervision signals, MoR introduces a Mixture-of-Rewards mechanism with learned routing, which adaptively fuses client reward models according to the input and alignment objective. The server then optimizes a base VLM using GRPO with a KL penalty to a reference model, enabling preference alignment without requiring client models to share architectures or parameters. Experiments on diverse public vision-language benchmarks demonstrate that MoR consistently outperforms federated alignment baselines in generalization and cross-client adaptability. Our approach provides a scalable solution for privacy-preserving alignment of heterogeneous VLMs under federated settings.
- Abstract(参考訳): VLM(Vision-Language Models)は、医療や金融といったプライバシに敏感な分野において大きな可能性を秘めている。
フェデレートラーニング(Federated Learning)は、分散トレーニングを可能にすることでこの問題を軽減するが、実際のデプロイメントは、計算リソース、アプリケーション要件、モデルアーキテクチャにおけるクライアントの不均一性に起因する問題に直面している。
極端なモデルとデータの不均一性の下で、パラメータアグリゲーションを優先ベースのコラボレーションに置き換えることで、直接パラメータやデータ交換の必要性を排除し、より適切なインターフェースを提供する。
そこで本研究では,GRPOとMixture-of-Rewardsを組み合わせた多種性VLMのアライメントフレームワークであるMoRを提案する。
MoRでは、各クライアントがローカルな嗜好アノテーションから報酬モデルをトレーニングし、生データを公開せずに特定の評価信号をキャプチャする。
これらの不均一な監視信号を組み合わせるために、MoRはMixture-of-Rewards機構と学習ルーティングを導入し、入力とアライメントの目的に応じてクライアントの報酬モデルを適応的に融合させる。
サーバは、参照モデルに対してKLペナルティを持つGRPOを使用してベースVLMを最適化し、クライアントモデルでアーキテクチャやパラメータを共有することなく、優先順位調整を可能にする。
様々な公開ビジョン言語ベンチマークの実験は、MoRが一般化とクロスクライアント適応性において、連邦化されたアライメントベースラインを一貫して上回っていることを示している。
我々のアプローチは、フェデレートされた設定下での不均一なVLMのプライバシー保護アライメントにスケーラブルなソリューションを提供する。
関連論文リスト
- FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment [55.97027207627]
Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
論文 参考訳(メタデータ) (2026-03-20T08:24:49Z) - FeDecider: An LLM-Based Framework for Federated Cross-Domain Recommendation [75.50721642765994]
大規模言語モデル(LLM)ベースのレコメンデーションモデルは、素晴らしいパフォーマンスを示している。
We propose a LLM-based framework for Federated cross- domain recommendation, FeDecider。
多様なデータセットにわたる大規模な実験により、提案したFeDeciderの有効性が検証された。
論文 参考訳(メタデータ) (2026-02-17T21:42:28Z) - Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
パラメータを好みに置き換えることは、よりスケーラブルでプライバシに保護される未来を表している、と私たちは主張する。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを用いた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化、堅牢性、およびクロスクライアント適応性において、連邦化されたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-31T03:11:51Z) - FedDuA: Doubly Adaptive Federated Learning [2.6108066206600555]
フェデレーション学習(Federated Learning)は、クライアントが生データを共有せずにグローバルモデルを共同でトレーニングする分散学習フレームワークである。
我々は、ミラー降下レンズによる中央サーバ最適化手順を定式化し、FedDuAと呼ばれる新しいフレームワークを提案する。
提案した2次適応型ステップサイズルールは最小限最適であり,凸対象に対する収束解析を提供する。
論文 参考訳(メタデータ) (2025-05-16T11:15:27Z) - Client-Centric Federated Adaptive Optimization [78.30827455292827]
Federated Learning(FL)は、クライアントが独自のデータをプライベートに保ちながら、協調的にモデルをトレーニングする分散学習パラダイムである。
本稿では,新しいフェデレーション最適化手法のクラスであるフェデレーション中心適応最適化を提案する。
論文 参考訳(メタデータ) (2025-01-17T04:00:50Z) - Hybrid-Regularized Magnitude Pruning for Robust Federated Learning under Covariate Shift [2.298932494750101]
クライアント側トレーニング分布の不整合がフェデレート学習モデルの性能を著しく低下させることを示す。
本稿では,ニューラルネットワークの疎結合性,冗長性,堅牢性を改善するために,フラニングとクライアントトレーニングの正規化を組み合わせた新しいFLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T16:22:37Z) - Towards Instance-adaptive Inference for Federated Learning [80.38701896056828]
Federated Learning(FL)は、複数のクライアントがローカルトレーニングを集約することで、強力なグローバルモデルを学ぶことができる分散学習パラダイムである。
本稿では,FedInsという新しいFLアルゴリズムを提案する。
我々のFedInsは、Tiny-ImageNet上での通信コストが15%未満で、トップパフォーマンスの手法に対して6.64%の改善など、最先端のFLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:58:47Z) - Local-Adaptive Face Recognition via Graph-based Meta-Clustering and
Regularized Adaptation [21.08555249703121]
局所適応顔認識(LaFR)と呼ばれる新しい問題設定を導入する。
LaFRは、ローカルに適応したモデルを自動かつ非監視にトレーニングすることで、最適なパフォーマンスを実現することを目指している。
更新された局所モデルに対して,単純なフェデレーションアグリゲーションにより,LaFRはグローバルモデルをさらに改善できることを示す。
論文 参考訳(メタデータ) (2022-03-27T15:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。