Fugu-MT 論文翻訳(概要): Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis

論文の概要: Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis

arxiv url: http://arxiv.org/abs/2503.17454v1
Date: Fri, 21 Mar 2025 18:06:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.652579
Title: Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis
Title（参考訳）: モデルミスマッチによる協調的値関数の推定--時間差分法による検討
Authors: Ali Beikmohammadi, Sarit Khirirat, Peter Richtárik, Sindri Magnússon,
Abstract要約: フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。我々は、中程度のレベルの情報共有でも、環境固有のエラーを著しく軽減できることを示した。
参考スコア（独自算出の注目度）: 55.13545823385091
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Federated reinforcement learning (FedRL) enables collaborative learning while preserving data privacy by preventing direct data exchange between agents. However, many existing FedRL algorithms assume that all agents operate in identical environments, which is often unrealistic. In real-world applications -- such as multi-robot teams, crowdsourced systems, and large-scale sensor networks -- each agent may experience slightly different transition dynamics, leading to inherent model mismatches. In this paper, we first establish linear convergence guarantees for single-agent temporal difference learning (TD(0)) in policy evaluation and demonstrate that under a perturbed environment, the agent suffers a systematic bias that prevents accurate estimation of the true value function. This result holds under both i.i.d. and Markovian sampling regimes. We then extend our analysis to the federated TD(0) (FedTD(0)) setting, where multiple agents -- each interacting with its own perturbed environment -- periodically share value estimates to collaboratively approximate the true value function of a common underlying model. Our theoretical results indicate the impact of model mismatch, network connectivity, and mixing behavior on the convergence of FedTD(0). Empirical experiments corroborate our theoretical gains, highlighting that even moderate levels of information sharing can significantly mitigate environment-specific errors.
Abstract（参考訳）: フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。しかし、既存のFedRLアルゴリズムの多くは、全てのエージェントが同じ環境で動作していると仮定している。マルチロボットチーム、クラウドソースシステム、大規模センサーネットワークといった現実世界のアプリケーションでは、各エージェントは若干異なるトランジションダイナミクスを経験し、固有のモデルミスマッチを引き起こす可能性がある。本稿では、まず、政策評価において、単一エージェント時間差分学習(TD(0))に対する線形収束保証を確立し、摂動環境下では、真値関数の正確な推定を防止するための体系的バイアスを被ることを示す。この結果は、i.i.d. と Markovian のサンプリングレギュレーションの下で成り立つ。次に、分析結果をフェデレートされたTD(0) (FedTD(0)) 設定に拡張し、複数のエージェント -- それぞれが自身の摂動環境と相互作用する -- を周期的に評価し、共通の基盤モデルの真値関数を協調的に近似する。その結果, モデルミスマッチ, ネットワーク接続性, 混合挙動がFedTD(0。実証実験は、我々の理論上の利益を裏付け、中程度のレベルの情報共有でさえ環境固有のエラーを著しく軽減することができることを強調している。

関連論文リスト

Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes [14.371259136517802]
我々は,ゲーム抵抗と出力品質の関連性を生かして,AIシステムを評価するメカニズムを開発した。自然条件下では,f-mutual information measures が独特のゲーム抵抗機構であることを示す。
論文参考訳（メタデータ） (2025-08-07T15:11:43Z)
Can We Validate Counterfactual Estimations in the Presence of General Network Interference? [6.092214762701847]
対実推定のためのクロスバリデーションを実現する新しいフレームワークを提案する。中心となるのは、分散保存ネットワークブートストラップ方式です。我々は、不均一な単位レベル特性を取り入れることで、最近の因果メッセージパッシングの発展を拡大する。
論文参考訳（メタデータ） (2025-02-03T06:51:04Z)
Single-Loop Federated Actor-Critic across Heterogeneous Environments [9.276123988094698]
エージェントが2段階のフェデレート方式でアクター・クリティカル・ラーニングを行うためのテキストサイトSingle-loop Federated Actor Critic (SFAC) について検討する。 SFACの収束誤差は環境に比例してほぼ定常点に収束することを示す。
論文参考訳（メタデータ） (2024-12-19T06:13:59Z)
Reducing Spurious Correlation for Federated Domain Generalization [15.864230656989854]
オープンワールドのシナリオでは、グローバルモデルは特定のメディアによってキャプチャされた全く新しいドメインデータをうまく予測するのに苦労する可能性がある。既存の手法はまだこの問題に対処するために、サンプルとラベルの間の強い統計的相関に頼っている。ローカルレベルとグローバルレベルでの全体的な最適化フレームワークであるFedCDを紹介します。
論文参考訳（メタデータ） (2024-07-27T05:06:31Z)
FedGen: Generalizable Federated Learning for Sequential Data [8.784435748969806]
多くの実世界の分散環境では、バイアスとデータサンプリングの問題により、急激な相関が存在する。我々はFedGenという汎用的なフェデレーション学習フレームワークを提案し、クライアントが素早い特徴と不変な特徴を識別および識別できるようにする。 FedGenは、より優れた一般化を実現し、現在のフェデレーション学習手法の精度を24%以上上回るモデルが得られることを示す。
論文参考訳（メタデータ） (2022-11-03T15:48:14Z)
Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文参考訳（メタデータ） (2022-07-19T12:52:33Z)
DRFLM: Distributionally Robust Federated Learning with Inter-client Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。上記の2つの課題を同時に解決するための一般的な枠組みを提案する。我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文参考訳（メタデータ） (2022-04-16T08:08:29Z)
Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文参考訳（メタデータ） (2022-01-31T12:32:11Z)
FedRAD: Federated Robust Adaptive Distillation [7.775374800382709]
一般的にモデルの更新を集約するコラボレーション学習フレームワークは、敵のクライアントによる毒殺攻撃のモデルに対して脆弱である。本稿では,新たなロバスト適応蒸留法 (FedRAD) を提案する。その結果,FedRADは敵の存在や異種データ分布において,他のアグリゲータよりも優れていた。
論文参考訳（メタデータ） (2021-12-02T16:50:57Z)
Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文参考訳（メタデータ） (2021-11-11T14:28:12Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。