論文の概要: Principled Learning-to-Communicate with Quasi-Classical Information Structures
- arxiv url: http://arxiv.org/abs/2603.03664v1
- Date: Wed, 04 Mar 2026 02:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.16187
- Title: Principled Learning-to-Communicate with Quasi-Classical Information Structures
- Title(参考訳): 準古典的情報構造を用いた原則的学習・コミュニケーション
- Authors: Xiangyu Liu, Haoyi You, Kaiqing Zhang,
- Abstract要約: 部分的に観測可能な環境下でのLearning-to-Communicate(LTC)は注目されている。
我々は、情報構造(IS)のレンズを通して、2行の作業行をブリッジすることで、LCCを形式化し、よりよく理解する。
まず、非古典的LCCは一般に計算的に難解であることを示し、従って準古典的LCC(QC)に焦点をあてる。
- 参考スコア(独自算出の注目度): 43.00089910001943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-to-communicate (LTC) in partially observable environments has received increasing attention in deep multi-agent reinforcement learning, where the control and communication strategies are jointly learned. Meanwhile, the impact of communication on decision-making has been extensively studied in control theory. In this paper, we seek to formalize and better understand LTC by bridging these two lines of work, through the lens of information structures (ISs). To this end, we formalize LTC in decentralized partially observable Markov decision processes (Dec-POMDPs) under the common-information-based framework from decentralized stochastic control, and classify LTC problems based on the ISs before (additional) information sharing. We first show that non-classical LTCs are computationally intractable in general, and thus focus on quasi-classical (QC) LTCs. We then propose a series of conditions for QC LTCs, under which LTCs preserve the QC IS after information sharing, whereas violating which can cause computational hardness in general. Further, we develop provable planning and learning algorithms for QC LTCs, and establish quasi-polynomial time and sample complexities for several QC LTC examples that satisfy the above conditions. Along the way, we also establish results on the relationship between (strictly) QC IS and the condition of having strategy-independent common-information-based beliefs (SI-CIBs), as well as on solving Dec-POMDPs without computationally intractable oracles but beyond those with SI-CIBs, which may be of independent interest.
- Abstract(参考訳): 部分的に観測可能な環境下での学習・通信(LTC)は、制御・通信戦略を共同で学習する深層多エージェント強化学習において注目されている。
一方、意思決定におけるコミュニケーションの影響は制御理論において広く研究されている。
本稿では,これらの2つの作業行を,情報構造(IS)のレンズを通してブリッジすることで,LCCの形式化と理解を深める。
この目的のために、分散化確率制御から共通情報に基づく枠組みの下で、分散化部分観測可能マルコフ決定過程(Dec-POMDP)においてLCCを定式化し、(追加)情報共有前のISに基づいてLCC問題を分類する。
まず、非古典的LCCは一般に計算的に難解であることを示し、従って準古典的LCC(QC)に焦点をあてる。
次に、情報共有後にQCISを保存し、一般に計算困難を引き起こす可能性のある違反を抑えるQC LTCの一連の条件を提案する。
さらに、QC LTCの検証可能な計画学習アルゴリズムを開発し、上記の条件を満たすいくつかのQC LTC例に対して準多項式時間とサンプル複素量を確立する。
その過程では、(厳密には)QC ISと戦略非依存の共通情報に基づく信念(SI-CIBs)との関係や、計算的に難解なオラクルのないDec-POMDPsの解決、あるいは独立した関心を持つSI-CIBs(SI-CIBs)以上の結果も確立する。
関連論文リスト
- The Silence that Speaks: Neural Estimation via Communication Gaps [1.7332551623907755]
CALMは、コミュニケーションスケジューリングと推定器設計の2つの課題を共同で解決する、新しい学習ベースのフレームワークである。
本研究では,CALMが推定器とスケジューラ間の暗黙的な調整を復号化して「サイレンス」の事例から情報を抽出し,推定精度を向上させることを示す。
論文 参考訳(メタデータ) (2025-11-30T19:58:21Z) - Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - Benchmarking LLMs' Swarm intelligence [51.648605206159125]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - CCSK:Cognitive Convection of Self-Knowledge Based Retrieval Augmentation for Large Language Models [3.3524923578228094]
CCSKは、シームズネットワークモジュールとレスポンス品質モデルを介して、動的な共同決定プロセスを実装している。
実世界のデータセットの実験により、CCSKは情報検索におけるモデルの有効性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-04-07T13:43:53Z) - Conceptual In-Context Learning and Chain of Concepts: Solving Complex Conceptual Problems Using Large Language Models [0.3562485774739681]
大規模言語モデル(LLM)は複雑な概念的問題を解決するための有望なエージェントである。
しかし、オープンワールドのデータに基づいてトレーニングされたバニラLSMには、必要な概念情報が欠けている。
LLMのための2つの新しいSCMアルゴリズムを提案し、LLMをCIで拡張し、LLMが複雑な概念的問題を解くことを可能にする。
論文 参考訳(メタデータ) (2024-12-19T13:54:33Z) - Learning-driven Zero Trust in Distributed Computing Continuum Systems [5.5676731834895765]
ZT(Zero Trust)を学習技術と組み合わせることで、分散コンピューティング連続システムにおけるさまざまな運用およびセキュリティ上の課題を解決することができる。
我々はDCCS用に設計された新しい学習駆動型ZT概念アーキテクチャを提案する。
学習プロセスが要求を検出してブロックし、リソースアクセス制御を強化し、ネットワークオーバーヘッドを低減する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T08:41:06Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
ネットワーク化されたアプローチは、障害の更新や人口規模の変化に対する堅牢性という点において、両方の選択肢に対して大きなメリットがあることが示されています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。