論文の概要: The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability
- arxiv url: http://arxiv.org/abs/2506.09940v1
- Date: Wed, 11 Jun 2025 17:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.15646
- Title: The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability
- Title(参考訳): 情報非対称性と知識伝達性を考慮したオンライン戦略決定のサンプル複雑度
- Authors: Jiachen Hu, Rui Ai, Han Zhong, Xiaoyu Chen, Liwei Wang, Zhaoran Wang, Zhuoran Yang,
- Abstract要約: 情報非対称性はマルチエージェントシステムの普及した特徴である。
本論文は,オンライン学習における基本的課題について考察する。知識伝達を必要とする場合でも,共同設立者について学ぶために,非I.d.アクションを適用できるのか?
本稿では,情報非対称性下でのシステム力学を正確に同定し,強化学習における知識伝達の課題を効果的にナビゲートするために,サンプル効率のよいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 93.11220429350278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information asymmetry is a pervasive feature of multi-agent systems, especially evident in economics and social sciences. In these settings, agents tailor their actions based on private information to maximize their rewards. These strategic behaviors often introduce complexities due to confounding variables. Simultaneously, knowledge transportability poses another significant challenge, arising from the difficulties of conducting experiments in target environments. It requires transferring knowledge from environments where empirical data is more readily available. Against these backdrops, this paper explores a fundamental question in online learning: Can we employ non-i.i.d. actions to learn about confounders even when requiring knowledge transfer? We present a sample-efficient algorithm designed to accurately identify system dynamics under information asymmetry and to navigate the challenges of knowledge transfer effectively in reinforcement learning, framed within an online strategic interaction model. Our method provably achieves learning of an $\epsilon$-optimal policy with a tight sample complexity of $O(1/\epsilon^2)$.
- Abstract(参考訳): 情報非対称性は多エージェントシステムの普及した特徴であり、特に経済学や社会科学において顕著である。
これらの設定では、エージェントは報酬を最大化するためにプライベート情報に基づいてアクションを調整します。
これらの戦略的行動は、しばしば変数の相違による複雑さをもたらす。
同時に、知識伝達性は、ターゲット環境で実験を行うことの難しさから生じる別の重要な課題を引き起こす。
経験的データがより容易に利用できる環境から知識を伝達する必要がある。
このような背景から,本稿では,オンライン学習における基本的な課題について考察する。 知識伝達を必要とする場合でも,共同設立者について学ぶために,非i.d.アクションを適用できるのか?
本稿では,情報非対称性下でのシステム力学を正確に同定し,オンライン戦略的相互作用モデルに組み込んだ強化学習において,知識伝達の課題を効果的にナビゲートするために,サンプル効率のよいアルゴリズムを提案する。
提案手法は,O(1/\epsilon^2)$の厳密なサンプル複雑性を持つ,$\epsilon$-optimal Policyの学習を確実に達成する。
関連論文リスト
- Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。
我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文 参考訳(メタデータ) (2025-04-04T16:03:38Z) - Robust Asymmetric Heterogeneous Federated Learning with Corrupted Clients [60.22876915395139]
本稿では、異種・データ破損クライアントをモデルとした頑健な連立学習課題について検討する。
データ破損は、ランダムノイズ、圧縮アーティファクト、現実のデプロイメントにおける環境条件などの要因によって避けられない。
本稿では,これらの問題に対処する新しいロバスト非対称不均一なフェデレート学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-12T09:52:04Z) - LEKA:LLM-Enhanced Knowledge Augmentation [24.552995956148145]
人間は類推学習と知識伝達に優れる。
モデルは受動的に取得し、知識から積極的にアクセスし、学習するようになる。
知識伝達のための知識拡張手法LEKAを開発した。
論文 参考訳(メタデータ) (2025-01-29T17:44:57Z) - Knowledge Transfer for Cross-Domain Reinforcement Learning: A Systematic Review [2.94944680995069]
強化学習(RL)は、複雑な意思決定問題を解決するために、試行錯誤を通じてエージェントを訓練できるフレームワークを提供する。
異なるタスクから知識を再利用することにより、知識伝達手法はRLのトレーニング時間を短縮する代替手段を提供する。
本稿では,異なる領域間で知識を伝達することに焦点を当てた手法の統一分析を行う。
論文 参考訳(メタデータ) (2024-04-26T20:36:58Z) - Knowledge is reward: Learning optimal exploration by predictive reward
cashing [5.279475826661643]
ベイズ適応問題の本質的な数学的構造を利用して問題を劇的に単純化する。
この単純化の鍵は、クロスバリューという新しい概念から来ている。
これにより、現在の情報状態から予測できる全ての将来の報酬を"キャッシュイン"する、新しいより密度の高い報酬構造が得られる。
論文 参考訳(メタデータ) (2021-09-17T12:52:24Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Tree of Knowledge: an Online Platform for Learning the Behaviour of
Complex Systems [0.0]
treeofknowledgeは複雑なシステムから複雑な振る舞いを学ぶために特別に設計された新しい方法論を実装している。
多くの異種データセットからエージェントの振る舞いを学び、興味の現象が直接観察されていなくても、これらのデータセットから学習することができる。
論文 参考訳(メタデータ) (2021-02-27T19:39:14Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。