論文の概要: Information-Bottleneck-Based Behavior Representation Learning for
Multi-agent Reinforcement learning
- arxiv url: http://arxiv.org/abs/2109.14188v1
- Date: Wed, 29 Sep 2021 04:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:32:53.329123
- Title: Information-Bottleneck-Based Behavior Representation Learning for
Multi-agent Reinforcement learning
- Title(参考訳): 多エージェント強化学習のための情報基盤に基づく行動表現学習
- Authors: Yue Jin, Shuangqing Wei, Jian Yuan, Xudong Zhang
- Abstract要約: 深層強化学習では、他のエージェントの十分かつコンパクトな情報を抽出し、アルゴリズムの効率的な収束と拡張性を達成することが重要である。
本稿では,多エージェント強化学習(IBORM)のための他のエージェントの行動表現学習を行い,低次元マッピングエンコーダを明示的に求める。
- 参考スコア(独自算出の注目度): 16.024781473545055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent deep reinforcement learning, extracting sufficient and compact
information of other agents is critical to attain efficient convergence and
scalability of an algorithm. In canonical frameworks, distilling of such
information is often done in an implicit and uninterpretable manner, or
explicitly with cost functions not able to reflect the relationship between
information compression and utility in representation. In this paper, we
present Information-Bottleneck-based Other agents' behavior Representation
learning for Multi-agent reinforcement learning (IBORM) to explicitly seek
low-dimensional mapping encoder through which a compact and informative
representation relevant to other agents' behaviors is established. IBORM
leverages the information bottleneck principle to compress observation
information, while retaining sufficient information relevant to other agents'
behaviors used for cooperation decision. Empirical results have demonstrated
that IBORM delivers the fastest convergence rate and the best performance of
the learned policies, as compared with implicit behavior representation
learning and explicit behavior representation learning without explicitly
considering information compression and utility.
- Abstract(参考訳): 多エージェント深部強化学習では、他のエージェントの十分かつコンパクトな情報を抽出し、アルゴリズムの効率的な収束とスケーラビリティを達成することが重要である。
標準的な枠組みでは、そのような情報の蒸留は暗黙的かつ解釈不能な方法で行われるか、情報圧縮と表現上の有用性の関係を反映できないコスト関数で明示的に行われる。
本稿では,多エージェント強化学習(IBORM)のための他エージェントの行動表現学習について,他のエージェントの行動に関連するコンパクトで情報的表現が確立された低次元マッピングエンコーダを明示的に求める。
IBORMは、情報ボトルネック原理を利用して観測情報を圧縮し、他のエージェントの行動に関連する十分な情報を協調決定に用いながら保持する。
IBORMは暗黙的な行動表現学習や明示的な行動表現学習と比較して、情報圧縮やユーティリティを明示的に考慮せずに、最も高速な収束率と学習ポリシーの最高の性能を提供することを示した。
関連論文リスト
- Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors [10.454194186065195]
強化学習はロボット制御タスクにおいて有望な成果を上げてきたが、情報の有効活用に苦慮している。
最近の研究は、複数の感覚入力から関節表現を抽出するために、再構成や相互情報に基づく補助的損失を構築している。
生のマルチモーダル観測について,学習した共同表現で情報を圧縮することが有用である。
論文 参考訳(メタデータ) (2024-10-23T04:32:37Z) - Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training [14.9343236333741]
本研究では,行列エントロピーや相互情報といった情報理論のメトリクスを用いて教師あり学習の分析を行う。
行列エントロピーは,データ表現の情報内容と分類頭部重みの相互作用のみを記述できないが,データの類似性とクラスタリングの挙動を効果的に反映できることを示す。
論文 参考訳(メタデータ) (2024-09-25T09:26:06Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Recognizable Information Bottleneck [31.993478081354958]
Information Bottlenecks (IB)は、情報圧縮によって見えないデータに一般化する表現を学習する。
IBは、空の一般化境界のため、現実のシナリオにおける一般化を保証できない。
本稿では、認識可能性批判を通じて表現の認識性を規則化する認識可能情報ボトルネック(RIB)を提案する。
論文 参考訳(メタデータ) (2023-04-28T03:55:33Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Robust Representation Learning via Perceptual Similarity Metrics [18.842322467828502]
Contrastive Input Morphing (CIM) はデータの入力空間変換を学習する表現学習フレームワークである。
CIMは他の相互情報に基づく表現学習技術と相補的であることを示す。
論文 参考訳(メタデータ) (2021-06-11T21:45:44Z) - A Theory of Usable Information Under Computational Constraints [103.5901638681034]
本稿では,複雑なシステムにおける情報推論のための新しいフレームワークを提案する。
我々の基礎はシャノンの情報理論の変分拡張に基づいている。
計算制約を組み込むことで,データから$mathcalV$-informationを確実に推定できることを示す。
論文 参考訳(メタデータ) (2020-02-25T06:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。