論文の概要: Semi-overlapping Multi-bandit Best Arm Identification for Sequential Support Network Learning
- arxiv url: http://arxiv.org/abs/2512.24959v1
- Date: Wed, 31 Dec 2025 16:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.712732
- Title: Semi-overlapping Multi-bandit Best Arm Identification for Sequential Support Network Learning
- Title(参考訳): 逐次支援ネットワーク学習のための半重重重畳型ベストアーム同定
- Authors: András Antos, András Millinghoffer, Péter Antal,
- Abstract要約: 新しいフレームワークであるSequential Support Network Learningを使用して、スパース候補リストからサポートネットワークを効率的に学習することができる。
本稿は,複数のバンドイットに対して異なるフィードバックを単一評価する半重複型マルチアームバンドイット(SOMMAB)を新たに開発した。
マルチバンド・ベストアーム識別のための指数において、最もよく知られた定数を改善する新しい指数誤差境界を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern AI and ML problems require evaluating partners' contributions through shared yet asymmetric, computationally intensive processes and the simultaneous selection of the most beneficial candidates. Sequential approaches to these problems can be unified under a new framework, Sequential Support Network Learning (SSNL), in which the goal is to select the most beneficial candidate set of partners for all participants using trials; that is, to learn a directed graph that represents the highest-performing contributions. We demonstrate that a new pure-exploration model, the semi-overlapping multi-(multi-armed) bandit (SOMMAB), in which a single evaluation provides distinct feedback to multiple bandits due to structural overlap among their arms, can be used to learn a support network from sparse candidate lists efficiently. We develop a generalized GapE algorithm for SOMMABs and derive new exponential error bounds that improve the best known constant in the exponent for multi-bandit best-arm identification. The bounds scale linearly with the degree of overlap, revealing significant sample-complexity gains arising from shared evaluations. From an application point of view, this work provides a theoretical foundation and improved performance guarantees for sequential learning tools for identifying support networks from sparse candidates in multiple learning problems, such as in multi-task learning (MTL), auxiliary task learning (ATL), federated learning (FL), and in multi-agent systems (MAS).
- Abstract(参考訳): 現代のAIとMLの問題の多くは、共有されるが非対称で計算集約的なプロセスと、最も有効な候補の同時選択を通じてパートナーの貢献を評価する必要がある。
これらの問題に対する逐次的なアプローチは、新たなフレームワークであるSSNL(Sequential Support Network Learning)の下で統一することができる。
両腕間の構造的重なり合いから複数の包帯に対して一意なフィードバックを与える半重重なりのマルチアームバンディット(SOMMAB)と呼ばれる新しい純粋探索モデルを用いて,スパース候補リストからサポートネットワークを効率的に学習できることを実証する。
我々は、SOMMABに対する一般化GapEアルゴリズムを開発し、マルチバンドベストアーム識別のための指数の最良の定数を改善するために、新しい指数誤差境界を導出する。
境界は重なり合いの度合いと線形にスケールし、共有評価から生じる有意なサンプル複雑度の増加が明らかとなる。
アプリケーションの観点からは、マルチタスク学習(MTL)、補助タスク学習(ATL)、フェデレーション学習(FL)、マルチエージェントシステム(MAS)など、複数の学習課題において、サポートネットワークをスパース候補から特定するための逐次学習ツールの理論的基盤と性能保証の改善を提供する。
関連論文リスト
- BandiK: Efficient Multi-Task Decomposition Using a Multi-Bandit Framework [0.05142666700569701]
BandiKは、マルチバンドを用いた新しいマルチタスク補助タスクサブセット選択法である。
これは、共同学習の恩恵を受ける可能性のあるタスクを特定するのに役立つタスク間のペアワイズ転送を推定する。
第2段階では、初期推定に基づいて、各目標タスクに対する補助タスクの候補セットの線形数を構築する。
論文 参考訳(メタデータ) (2025-12-31T08:25:15Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfinding [76.67608003501479]
POGEMAは、学習のための高速環境、問題インスタンスジェネレータ、可視化ツールキットを含む、総合的なツールセットである。
また、プライマリ評価指標に基づいて計算されるドメイン関連メトリクスの範囲を規定する評価プロトコルを導入し、定義する。
この比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含む。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Variational Offline Multi-agent Skill Discovery [47.924414207796005]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再学習することなく,関連するタスク間で伝達可能である。
StarCraftタスクに対する実証的な評価は、既存の階層型マルチエージェント強化学習(MARL)法よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [9.571499333904969]
補助的なタスクは、データが不足したり、関心の主タスクが極めて複雑である状況での学習を容易にする。
Detauxと呼ばれる新しいフレームワークを提案する。このフレームワークでは,非関連性のある新たな補助的分類タスクを見つけるために,弱い教師付き逆絡手順が使用される。
切り離し手順は表現レベルで機能し、主タスクに関連する変動を孤立した部分空間に分離する。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。