論文の概要: Multi-Agent Informational Learning Processes
- arxiv url: http://arxiv.org/abs/2006.06870v4
- Date: Thu, 25 Feb 2021 21:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:06:18.490255
- Title: Multi-Agent Informational Learning Processes
- Title(参考訳): マルチエージェント情報学習プロセス
- Authors: J.K. Terry, Nathaniel Grammel
- Abstract要約: 本稿では,マルチエージェント強化学習の数学的モデルであるマルチエージェント情報学習プロセッサ"MAILP"モデルを提案する。
このモデルは、エージェントが一定の量の情報に対してポリシーを持っているという考えに基づいており、この情報がどのように反復的に進化し、多くのエージェントを通して伝播するかをモデル化している。
- 参考スコア(独自算出の注目度): 0.571097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new mathematical model of multi-agent reinforcement learning,
the Multi-Agent Informational Learning Processor "MAILP" model. The model is
based on the notion that agents have policies for a certain amount of
information, models how this information iteratively evolves and propagates
through many agents. This model is very general, and the only meaningful
assumption made is that learning for individual agents progressively slows over
time.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習の数学的モデルであるマルチエージェント情報学習プロセッサ"MAILP"モデルを提案する。
このモデルは、エージェントが一定の量の情報に対するポリシーを持っているという考えに基づいており、この情報が反復的にどのように進化し、多くのエージェントを通じて伝播するかをモデル化している。
このモデルは非常に一般的であり、唯一の意味のある仮定は、個々のエージェントの学習が徐々に遅くなるということである。
関連論文リスト
- Perspectives for Direct Interpretability in Multi-Agent Deep Reinforcement Learning [0.41783829807634765]
マルチエージェントディープ強化学習(MADRL)は、ロボット工学やゲームにおいて複雑な問題を解くのに効果的であることが証明された。
本稿では, 学習モデルから直接, ポストホックな説明を生成することによって, 直接解釈可能であることを提唱する。
我々は、関連バックプロパゲーション、知識エディション、モデルステアリング、アクティベーションパッチ、スパースオートエンコーダ、サーキットディスカバリなど、現代的な手法を探求する。
論文 参考訳(メタデータ) (2025-02-02T09:15:27Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Multi-Model Federated Learning [8.629912408966145]
連合学習を複数の無関係モデルが同時に訓練される環境に拡張する。
全てのクライアントは一度にMモデルのどれかを訓練することができ、サーバはMモデルのモデルを保持します。
時間とともに学習タスクをクライアントに割り当てるための複数のポリシーを提案する。第1の方針は、広く研究されているFedAvgをi.i.dのクライアントにモデルを割り当てることでマルチモデル学習に拡張するものである。
さらに,現在に基づく意思決定を行うマルチモデル設定において,クライアント選択のための2つの新しいポリシーを提案する。
論文 参考訳(メタデータ) (2022-01-07T18:24:23Z) - Paradigms of Computational Agency [0.0]
エージェントベースのモデルは、情報システムの複雑さの増大に対処するための有望なパラダイムとして登場した。
本稿では,エージェントの理解と,エージェントの計算モデルが進化した異質な方法について考察する。
論文 参考訳(メタデータ) (2021-12-10T14:42:49Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。