論文の概要: Bandit Learning in General Open Multi-agent Systems
- arxiv url: http://arxiv.org/abs/2605.06202v1
- Date: Thu, 07 May 2026 13:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.815166
- Title: Bandit Learning in General Open Multi-agent Systems
- Title(参考訳): 一般開放型マルチエージェントシステムにおける帯域学習
- Authors: Mengfan Xu,
- Abstract要約: 証明可能な保証付きグローバルUCB学習手法を開発した。
入力の不確実性はトレーニング前の程度で直線的に進入するが、安定な状態においては、後悔は永続的な最適な腕を特定するのに必要な時間によって支配される。
- 参考スコア(独自算出の注目度): 5.260137087369842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in digital platforms have highlighted the prevalence of open systems, where agents can arrive and depart over time. While bandit learning in open systems has recently received initial attention, existing work imposes structural assumptions that are frequently violated in practice. A learning paradigm for general open systems creates fresh challenges: newly arriving agents induce endogenous non-stationarity; agent patterns determine how quickly information accumulates; and new agents make regret scale further with the time horizon. To this end, we formulate a unified open-system bandit problem with general dynamics, including heterogeneous rewards and general agent patterns. We introduce new concepts to capture the inherent complexities: the \emph{pre-training degree} of new agents quantifies how much information an agent carries upon entry, \emph{stability} measures the impact of new agents on the system, and \emph{global dynamic regret} compares the cumulative expected reward of all active agents with that of the varying optimal arms. We develop certified global-UCB learning methodologies with provable guarantees. Our regret bounds reveal that entry uncertainty enters linearly via the pre-training degree, while in stable regimes, regret is governed by the time needed to identify a persistent optimal arm, as well as by the agent patterns. We further show that these dependencies are tight via lower bounds in hard instances.
- Abstract(参考訳): デジタルプラットフォームの最近の発展は、エージェントが時間とともに到着して出発できるオープンシステムの普及を強調している。
オープンシステムにおける包括的学習は、最近注目されているが、既存の研究は、実際にしばしば違反される構造的仮定を課している。
新しいエージェントは内因性非定常性を誘導し、エージェントパターンは情報の蓄積の速さを決定する。
この目的のために、不均一な報酬や一般エージェントパターンを含む一般力学で統一されたオープン・システム・バンディット問題を定式化する。
新しいエージェントのemph{pre-training degree}は、エージェントが入力にどれだけの情報を運ぶかを定量化し、\emph{stability}はシステムに対する新しいエージェントの影響を計測し、\emph{global dynamic regret}は、すべてのアクティブエージェントの累積的な報酬を、最適なアームのそれと比較する。
証明可能な保証付きグローバルUCB学習手法を開発した。
我々の後悔境界は、エントリーの不確かさが事前訓練の度合いによって直線的に進入するのに対して、安定した状態においては、後悔は永続的な最適な腕を特定するのに必要な時間とエージェントパターンによって支配される。
さらに、これらの依存関係はハードインスタンスの低いバウンダリを介して厳密であることを示す。
関連論文リスト
- Emergent Social Intelligence Risks in Generative Multi-Agent Systems [106.60961969939676]
マルチエージェントシステムは、実験室のプロトタイプから現実のデプロイへと急速に移行し、複雑なタスクを解決するためのリソースを共同で計画し、交渉し、割り当てている。
本稿では、共有リソースの競合、シーケンシャル・ハンドオフ・コラボレーション、集合的意思決定集約などに関わる病態における、このような創発的なマルチエージェントリスクに関する先駆的な研究について述べる。
このような集団行動は、稀なケースや病理学的ケースではなく、反復的な臨床試験や幅広い相互作用条件で頻繁に発生する。
エージェント集団が人間の社会から見慣れた障害パターンを自然に再現する社会知能リスクである。
論文 参考訳(メタデータ) (2026-03-29T17:10:28Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Challenges in Credit Assignment for Multi-Agent Reinforcement Learning in Open Agent Systems [0.19336815376402716]
本報告は、オープンネスとクレジット割り当て問題(CAP)の相互作用に焦点を当てたものである。
CAPは、システム全体のパフォーマンスに対する個々のエージェントの貢献を決定する。
従来のクレジット代入法では、静的エージェントの集団、固定および事前定義されたタスク、固定型を仮定することが多く、オープンシステムには不適当である。
論文 参考訳(メタデータ) (2025-10-31T17:30:32Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework [0.0]
強化学習自由エージェント (Reinforcement Learning Free Agent, RLFA) アルゴリズムは、永続的な過パフォーマンスを示すエージェントを検出し、除去するための報酬に基づくメカニズムを導入する。
第一のユースケースは不正検出であり、RLFAは事前に設定された閾値以下で検出精度が低下するエージェントを即座に交換する。
このダイナミックでフリーの緊急サイクルは、持続的な正確さ、出現する脅威への迅速な適応、進行中の運用に対する最小限の中断を保証する。
論文 参考訳(メタデータ) (2025-01-29T13:00:22Z) - A Hierarchical Framework with Spatio-Temporal Consistency Learning for Emergence Detection in Complex Adaptive Systems [41.055298739292695]
複雑な適応システムのグローバルな特性であるEmergenceは、例えばネットワークレベルのトラフィック混雑など、現実世界の動的システムで広く利用されている。
本稿では,システム表現とエージェント表現を学習することで,これら2つの問題を解決するために,CASの時間的一貫性を備えた階層型フレームワークを提案する。
提案手法は,3つのデータセットに対する従来の手法や深層学習法よりも,検出の難しい動作をよく知ることができる。
論文 参考訳(メタデータ) (2024-01-18T08:55:05Z) - Non-Stationary Bandits with Auto-Regressive Temporal Dependency [14.093856726745662]
本稿では,自己回帰(AR)報酬構造を通じて実世界の力学の時間構造をキャプチャする,新しい非定常MABフレームワークを提案する。
i) 時間的依存を利用して探索と利用を動的にバランスさせるのに適した変更機構と, (ii) 時代遅れの情報を捨てるように設計された再起動機構の2つの主要なメカニズムを統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-28T20:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。