論文の概要: Distributed Stochastic Gradient Descent with Cost-Sensitive and
Strategic Agents
- arxiv url: http://arxiv.org/abs/2212.02049v1
- Date: Mon, 5 Dec 2022 05:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:14:32.994993
- Title: Distributed Stochastic Gradient Descent with Cost-Sensitive and
Strategic Agents
- Title(参考訳): 費用に敏感な戦略エージェントを用いた分散確率勾配降下
- Authors: Abdullah Basar Akbay, Cihan Tepedelenlioglu
- Abstract要約: 本研究では,コストに敏感で戦略的なエージェントがサーバで学習モデルを訓練する,連合型学習環境について考察する。
ミニバッチサイズ選択の関数の増加に伴い、エージェントはデータ収集、勾配計算、通信に関連するコストを発生させる。
提案した報奨機構は,サーバの要求に応じて,エージェントがミニバッチサイズの選択を決定するような協調的なナッシュ均衡を有することを示す。
- 参考スコア(独自算出の注目度): 6.3709059254426545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study considers a federated learning setup where cost-sensitive and
strategic agents train a learning model with a server. During each round, each
agent samples a minibatch of training data and sends his gradient update. As an
increasing function of his minibatch size choice, the agent incurs a cost
associated with the data collection, gradient computation and communication.
The agents have the freedom to choose their minibatch size and may even opt out
from training. To reduce his cost, an agent may diminish his minibatch size,
which may also cause an increase in the noise level of the gradient update. The
server can offer rewards to compensate the agents for their costs and to
incentivize their participation but she lacks the capability of validating the
true minibatch sizes of the agents. To tackle this challenge, the proposed
reward mechanism evaluates the quality of each agent's gradient according to
the its distance to a reference which is constructed from the gradients
provided by other agents. It is shown that the proposed reward mechanism has a
cooperative Nash equilibrium in which the agents determine the minibatch size
choices according to the requests of the server.
- Abstract(参考訳): 本研究では,コストに敏感で戦略的なエージェントがサーバで学習モデルを訓練する,連合型学習環境について考察する。
各ラウンド中、各エージェントはトレーニングデータのミニバッチをサンプリングし、グラデーション更新を送信する。
ミニバッチサイズ選択の関数の増加に伴い、エージェントはデータ収集、勾配計算、通信に関連するコストを発生させる。
エージェントはミニバッチサイズを選択する自由があり、トレーニングからオプトアウトすることもある。
コストを削減するために、エージェントはミニバッチサイズを減少させ、勾配更新のノイズレベルを増加させる可能性がある。
サーバは、エージェントの費用を補償し、インセンティブを付与する報酬を提供することができるが、エージェントの真のミニバッチサイズを検証する能力が欠けている。
この課題に対処するために,提案した報酬機構は,他のエージェントが提供する勾配から構築された基準への距離に応じて,各エージェントの勾配の質を評価する。
提案した報奨機構は,サーバの要求に応じて,エージェントがミニバッチサイズの選択を決定するような協調的なナッシュ均衡を有することを示す。
関連論文リスト
- CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning [5.825410941577592]
強化学習エージェントは、静的タスクにおいて超人的パフォーマンスを達成することができるが、タスク変更の訓練と脆弱化にはコストがかかる。
トレーニングエージェントの使用コストの高さを回避しつつ、変更の難易度を近似する指標のクラスである、変更誘発レグレトプロキシメトリクスを提案する。
CHIRPメトリックとエージェントパフォーマンスの関係は、単純なグリッドワールドとMetaWorldのロボットアームタスクスイートの2つの環境で識別される。
論文 参考訳(メタデータ) (2024-09-05T14:31:05Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - SAFE: Machine Unlearning With Shard Graphs [100.12621304361288]
本稿では,大規模モデルを多種多様なデータ集合に適応させる手法であるSynergy Aware Forgetting Ensemble (SAFE)を提案する。
SAFEは軽量なアダプタシステムを使用し、ほとんどの計算を再利用しながらトレーニングすることができる。
これにより、SAFEは現在の最先端の方法よりも小さなシャードの順序でトレーニングすることができる。
論文 参考訳(メタデータ) (2023-04-25T22:02:09Z) - Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement
Learning [36.93626032028901]
スパースと遅延した報酬は、単一のエージェント強化学習に挑戦する。
本稿では,スパースと遅延報酬を再分配するための補助的損失を持つニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。
論文 参考訳(メタデータ) (2022-10-31T17:54:51Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Model Transferability With Responsive Decision Subjects [11.07759054787023]
我々は、利用可能なソース分布でトレーニングされたモデルの性能が、その誘導されたドメインのパフォーマンスにどのように変換されるかを研究することによって、モデルの転送可能性に関する議論を形式化する。
我々は、誘導されたドメインシフトによるパフォーマンスギャップの上限と、分類器がソーストレーニング分布または誘導されたターゲット分布に悩まさなければならないトレードオフの上限の両方を提供する。
論文 参考訳(メタデータ) (2021-07-13T08:21:37Z) - ASCII: ASsisted Classification with Ignorance Interchange [17.413989127493622]
エージェントが他のエージェントの助けを借りてその分類性能を向上させるためのASCIIという手法を提案する。
主なアイデアは、エージェント間の衝突サンプルごとに0と1の間の無知値を反復的に交換することである。
この方法は自然にプライバシーを意識し、伝達経済と分散学習のシナリオに適している。
論文 参考訳(メタデータ) (2020-10-21T03:57:36Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。