論文の概要: FIRM: Federated In-client Regularized Multi-objective Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.16992v1
- Date: Fri, 21 Nov 2025 06:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.910368
- Title: FIRM: Federated In-client Regularized Multi-objective Alignment for Large Language Models
- Title(参考訳): FIRM:大規模言語モデルのためのクライアント内正規化多目的アライメント
- Authors: Fatemeh, Nourzad, Amirhossein Roknilamouki, Eylem Ekici, Jia, Liu, Ness B. Shroff,
- Abstract要約: FIRM(Federated In-client Regularized Multi-objective alignment)は,クライアントの不一致の低減と通信効率の両立を実現するアルゴリズムである。
FIRMはトレーニングをスムーズにし、クライアントの不一致を低減し、ベースラインよりも報酬トレードオフを改善した。
- 参考スコア(独自算出の注目度): 19.266791462067655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with human values often involves balancing multiple, conflicting objectives such as helpfulness and harmlessness. Training these models is computationally intensive, and centralizing the process raises significant data privacy concerns. Federated Learning (FL) offers a compelling alternative, but existing Federated Multi-Objective Optimization (FMOO) methods face severe communication bottlenecks as their reliance on transmitting multiple gradients to a server is unscalable for large models. We introduce FIRM (Federated In-client Regularized Multi-objective alignment), a novel algorithm that achieves both client disagreement drift mitigation and communication efficiency. In FIRM, each client locally solves a regularized multi-objective optimization problem. By directly mitigating client disagreement drift through in-client regularization, our method eliminates the need for the multi-gradient transmissions common in prior works. Consequently, clients need only to transmit a single set of adapted parameters, maintaining high communication efficiency. We prove that our algorithm converges to Pareto-stationary points and, to our knowledge, provide the first finite-time convergence guarantees for this federated multi-objective alignment setting. Empirically, we show that FIRM leads to smoother training dynamics, reduced client disagreement drift, and improved reward trade-offs compared to baselines. We further propose a method to incorporate a preference over the objectives and report empirical Pareto plots, demonstrating that FIRM can smoothly adapt trade-offs between objectives in response to specified preferences.
- Abstract(参考訳): 人的価値を伴う大規模言語モデル(LLM)のアラインメントには、有用性や無害性といった、矛盾する複数の目標のバランスが伴うことが多い。
これらのモデルのトレーニングは計算集約的であり、プロセスの集中化は、重要なデータプライバシの懸念を引き起こす。
Federated Learning (FL) は魅力的な代替手段を提供するが、既存のFederated Multi-Objective Optimization (FMOO) メソッドは、大規模なモデルではスケールできないため、サーバへの複数の勾配の転送に依存しているため、深刻な通信ボトルネックに直面している。
FIRM(Federated In-client Regularized Multi-objective alignment)は,クライアントの不一致の低減と通信効率の両立を実現するアルゴリズムである。
FIRMでは、各クライアントが正規化された多目的最適化問題を局所的に解決する。
クライアントの不一致をクライアント内での正規化を通じて直接緩和することにより,従来の作業に共通する多段階送信の必要性を解消する。
したがって、クライアントは適応されたパラメータのセットを1つだけ送信するだけで、高い通信効率を維持することができる。
我々はこのアルゴリズムがパレート定常点に収束することを証明し、この連合化された多目的アライメント設定に対する最初の有限時間収束保証を与える。
実験により、FIRMはトレーニングのスムーズさ、クライアントの不一致の低減、ベースラインに比べて報酬トレードオフの改善につながることが示された。
さらに、目的よりも優先事項を取り入れ、実証的なパレートプロットを報告し、FIRMが特定の嗜好に応じて目的間のトレードオフを円滑に適応できることを実証する手法を提案する。
関連論文リスト
- Federated Multi-Objective Learning with Controlled Pareto Frontiers [10.818539304970935]
フェデレートラーニング(FL)は、プライバシ保護モデルトレーニングにおいて広く採用されているパラダイムである。
FMOL(Federated Multi-Objective Learning)のような既存の手法は、多目的最適化(MOO)をFLにインポートしようとする試みである。
優先コーン制約によりクライアントの最適性を強制する最初の統合MOOフレームワークであるComically-Regularized FMOL(CR-FMOL)を紹介する。
論文 参考訳(メタデータ) (2025-08-07T14:15:12Z) - Federated Multimodal Learning with Dual Adapters and Selective Pruning for Communication and Computational Efficiency [6.0860246234554545]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散クライアント間の協調学習を可能にする。
本稿では,これらの課題に対処するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T17:21:33Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Client-Centric Federated Adaptive Optimization [78.30827455292827]
Federated Learning(FL)は、クライアントが独自のデータをプライベートに保ちながら、協調的にモデルをトレーニングする分散学習パラダイムである。
本稿では,新しいフェデレーション最適化手法のクラスであるフェデレーション中心適応最適化を提案する。
論文 参考訳(メタデータ) (2025-01-17T04:00:50Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Federated Communication-Efficient Multi-Objective Optimization [27.492821176616815]
本稿では,新しいフェデレーション型多目的通信(F)モデルであるFedCMOOを提案する。
CMOOは、各通信が中央サーバに集約されるため、Fedの目標数とスケールしない。
本稿では,提案手法のベースラインアプローチの優位性を実証する。
論文 参考訳(メタデータ) (2024-10-21T18:09:22Z) - Re-Weighted Softmax Cross-Entropy to Control Forgetting in Federated
Learning [14.196701066823499]
フェデレートラーニング(Federated Learning)では、独立したクライアントノードの集合で計算されたモデル更新を集約することによって、グローバルモデルが学習される。
我々は、個々のクライアントモデルが、他のクライアントのデータに関して破滅的な忘れを経験していることを示します。
本稿では,損失の計算に先立ってソフトマックスのロジットを再重み付けすることで,クロスエントロピーの目標を周期的に修正する効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-04-11T14:51:55Z) - Improving Privacy-Preserving Vertical Federated Learning by Efficient Communication with ADMM [62.62684911017472]
フェデレートラーニング(FL)により、デバイスは共有モデルを共同でトレーニングし、トレーニングデータをプライバシ目的でローカルに保つことができる。
マルチヘッド(VIM)を備えたVFLフレームワークを導入し、各クライアントの別々のコントリビューションを考慮に入れます。
VIMは最先端技術に比べて性能が著しく向上し、収束が速い。
論文 参考訳(メタデータ) (2022-07-20T23:14:33Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。