論文の概要: Exploiting Expertise of Non-Expert and Diverse Agents in Social Bandit Learning: A Free Energy Approach
- arxiv url: http://arxiv.org/abs/2603.11757v1
- Date: Thu, 12 Mar 2026 10:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.010218
- Title: Exploiting Expertise of Non-Expert and Diverse Agents in Social Bandit Learning: A Free Energy Approach
- Title(参考訳): ソーシャル・バンド・ラーニングにおける非専門的・異種エージェントのエクスプロイト・スペシャリスト:自由エネルギー的アプローチ
- Authors: Erfan Mirzaei, Seyed Pooya Shariatpanahi, Alireza Tavakoli, Reshad Hosseini, Majid Nili Ahmadabadi,
- Abstract要約: 社会的学習は個人の経験と他人の行動を観察し、学習成果を改善する機会を提示する。
本稿では,社会規範に頼らずに,社会エージェントが他人の専門知識を評価できる,自由エネルギーに基づくソーシャル・バンディット学習アルゴリズムを提案する。
提案アルゴリズムは,ランダムエージェントや準最適エージェントの存在下においても,関連するエージェントを戦略的に識別し,その行動情報を巧みに活用する。
- 参考スコア(独自算出の注目度): 3.1197794117254074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized AI-based services involve a population of individual reinforcement learning agents. However, most reinforcement learning algorithms focus on harnessing individual learning and fail to leverage the social learning capabilities commonly exhibited by humans and animals. Social learning integrates individual experience with observing others' behavior, presenting opportunities for improved learning outcomes. In this study, we focus on a social bandit learning scenario where a social agent observes other agents' actions without knowledge of their rewards. The agents independently pursue their own policy without explicit motivation to teach each other. We propose a free energy-based social bandit learning algorithm over the policy space, where the social agent evaluates others' expertise levels without resorting to any oracle or social norms. Accordingly, the social agent integrates its direct experiences in the environment and others' estimated policies. The theoretical convergence of our algorithm to the optimal policy is proven. Empirical evaluations validate the superiority of our social learning method over alternative approaches in various scenarios. Our algorithm strategically identifies the relevant agents, even in the presence of random or suboptimal agents, and skillfully exploits their behavioral information. In addition to societies including expert agents, in the presence of relevant but non-expert agents, our algorithm significantly enhances individual learning performance, where most related methods fail. Importantly, it also maintains logarithmic regret.
- Abstract(参考訳): パーソナライズされたAIベースのサービスは、個々の強化学習エージェントの集団を含んでいる。
しかし、ほとんどの強化学習アルゴリズムは、個々の学習を活用することに集中しており、人間や動物が一般的に提示する社会的学習能力の活用に失敗している。
社会的学習は個人の経験と他人の行動を観察し、学習成果を改善する機会を提示する。
本研究では,社会的エージェントが報酬を知らずに他のエージェントの行動を観察する,社会的盗賊学習のシナリオに焦点を当てた。
エージェントは、互いに教える明確なモチベーションなしで、独立して独自のポリシーを追求する。
本稿では,社会規範に頼らずに,社会エージェントが他人の専門知識を評価できる,自由エネルギーに基づくソーシャル・バンディット学習アルゴリズムを提案する。
そのため,社会的エージェントは,環境および他者の推定方針における直接的な経験を統合する。
アルゴリズムの最適ポリシーへの理論的収束が証明された。
経験的評価は、様々なシナリオにおいて、代替アプローチよりも社会学習法の方が優れていることを検証する。
提案アルゴリズムは,ランダムエージェントや準最適エージェントの存在下においても,関連するエージェントを戦略的に識別し,その行動情報を巧みに活用する。
専門的エージェントを含む社会に加え、関連するが専門的でないエージェントの存在下では、我々のアルゴリズムは、ほとんどのメソッドが失敗する個別の学習性能を著しく向上させる。
重要な点として、対数的後悔も維持する。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents [2.1301560294088318]
自己関心の個人間の協力は、自然界で広く見られる現象であるが、人工的な知的エージェント間の相互作用においては、いまだ解明されていない。
そこで,本研究では,リターンに対する相手の行動の影響を再現するために,本質的に動機づけられた強化学習エージェントであるReciprocatorを紹介する。
本研究では,同時学習において,時間的に拡張された社会的ジレンマにおける協調を促進するために,共用者が利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T06:07:27Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Deception in Social Learning: A Multi-Agent Reinforcement Learning
Perspective [0.0]
本研究は、問題ステートメントを導入し、重要な概念を定義し、既存の証拠を批判的に評価し、今後の研究で解決すべき課題に対処する。
マルチエージェント強化学習(Multi-Agent Reinforcement Learning)の枠組みの中で、ソーシャルラーニング(Social Learning)は、エージェントが他のエージェントの報酬機能を再形成することを可能にする新しいアルゴリズムのクラスである。
論文 参考訳(メタデータ) (2021-06-09T21:34:11Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。