論文の概要: Bridging Swarm Intelligence and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.17517v1
- Date: Wed, 23 Oct 2024 02:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:39.302146
- Title: Bridging Swarm Intelligence and Reinforcement Learning
- Title(参考訳): ブリジング・スワムインテリジェンスと強化学習
- Authors: Karthik Soma, Yann Bouteiller, Heiko Hamann, Giovanni Beltrame,
- Abstract要約: スワーミング(SI)は、単純な個人の大きなグループがどのようにして複雑な行動を生み出すかを探求する。
我々は,多武装バンディット問題におけるCDMと単エージェント強化学習(RL)の理論的,経験的等価性を実証する。
- 参考スコア(独自算出の注目度): 13.347362865770279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Swarm intelligence (SI) explores how large groups of simple individuals (e.g., insects, fish, birds) collaborate to produce complex behaviors, exemplifying that the whole is greater than the sum of its parts. A fundamental task in SI is Collective Decision-Making (CDM), where a group selects the best option among several alternatives, such as choosing an optimal foraging site. In this work, we demonstrate a theoretical and empirical equivalence between CDM and single-agent reinforcement learning (RL) in multi-armed bandit problems, utilizing concepts from opinion dynamics, evolutionary game theory, and RL. This equivalence bridges the gap between SI and RL and leads us to introduce a novel abstract RL update rule called Maynard-Cross Learning. Additionally, it provides a new population-based perspective on common RL practices like learning rate adjustment and batching. Our findings enable cross-disciplinary fertilization between RL and SI, allowing techniques from one field to enhance the understanding and methodologies of the other.
- Abstract(参考訳): スワーム・インテリジェンス(SI)は、単純な個人(昆虫、魚、鳥など)の大規模な集団が、複雑な行動を生み出すためにどのように協力するかを探求し、全体はその部分の合計よりも大きいことを実証している。
SI の基本課題は Collective Decision-Making (CDM) である。
本研究では,多武装バンディット問題におけるCDMと単エージェント強化学習(RL)の理論的,経験的等価性を実証し,意見力学,進化ゲーム理論,RLの概念を応用した。
この等価性は、SIとRLのギャップを埋め、Maynard-Cross Learningと呼ばれる新しい抽象的なRL更新ルールを導入する。
さらに、学習率調整やバッチ処理といった一般的なRLプラクティスに関する、新たな人口ベースの視点も提供する。
以上の結果から,RLとSIの交叉分枝受精が可能となり,一方の分野からのテクニックが他方の理解と方法論を強化することができた。
関連論文リスト
- The Free Will Equation: Quantum Field Analogies for AGI [0.0]
本稿では,AGIエージェントに適応性,制御性を付与する枠組みとして,自由意志方程式(Free Will Equation)を提案する。
中心となる考え方は、AIエージェントの認知状態を潜在的な行動や思考の重ね合わせとして扱うことである。
非定常的マルチアームバンディット環境での実験は、このフレームワークを用いたエージェントがベースライン法よりも高い報酬とポリシーの多様性を達成することを示した。
論文 参考訳(メタデータ) (2025-07-04T10:25:52Z) - Toward a Theory of Agents as Tool-Use Decision-Makers [89.26889709510242]
真の自律性は、エージェントが、彼らが知っていること、必要なこと、そしてその知識を効率的に獲得する方法を統治する、一貫性のある疫学の枠組みに根ざす必要がある、と我々は主張する。
本研究では,内的推論と外的行動を等価な疫学ツールとして扱う統一理論を提案し,エージェントが内観と相互作用を体系的に調整することを可能にする。
この視点は、エージェントの設計を単なるアクションエグゼクタから知識駆動インテリジェンスシステムにシフトさせ、適応的で効率的でゴール指向の行動が可能な基礎エージェントを構築するための原則化された道筋を提供する。
論文 参考訳(メタデータ) (2025-06-01T07:52:16Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - A Nature-Inspired Colony of Artificial Intelligence System with Fast, Detailed, and Organized Learner Agents for Enhancing Diversity and Quality [0.0]
我々は、CNNベースのAIエージェントのコロニーを構築し、単一のシステムとして機能させるアプローチを提案する。
提案システムは、アリコロニーやヒトコロニーのような生物学的システムの自然環境を識別する。
AIのコロニーにおける高速で詳細な学習者の進化は、ユニークな1対1マッピングを導入することで達成される。
論文 参考訳(メタデータ) (2025-04-07T12:13:14Z) - Dynamics of Insect Paraintelligence: How a Mindless Colony of Ants Meaningfully Moves a Beetle [0.0]
VDR(Vector Dissipation of Randomness)と呼ばれる新しい概念が開発されている。
VDRは、複雑な多成分系がカオスから秩序へと遷移するメカニズムを記述している。
パラインテリジェンスという概念が初めて導入された。
論文 参考訳(メタデータ) (2025-03-24T16:33:42Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Mathematics of multi-agent learning systems at the interface of game
theory and artificial intelligence [0.8049333067399385]
進化ゲーム理論と人工知能は、一見すると異なるように見える2つの分野であるが、それらは顕著なつながりと交差を持っている。
前者は集団における行動(または戦略)の進化に焦点を当て、個人が他人と対話し、模倣(または社会学習)に基づいて戦略を更新する。
一方後者は、機械学習アルゴリズムと(ディープ)ニューラルネットワークに重点を置いている。
論文 参考訳(メタデータ) (2024-03-09T17:36:54Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Collective Iterative Learning Control: Exploiting Diversity in
Multi-Agent Systems for Reference Tracking Tasks [0.34410212782758043]
提案手法は,エージェントの個人学習戦略の利点を総合的に組み合わせることを可能にした。
すべての理論結果は、2輪反転振り子ロボットのシミュレーションと実験で確認される。
論文 参考訳(メタデータ) (2021-04-15T17:36:00Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。