論文の概要: ALMAB-DC: Active Learning, Multi-Armed Bandits, and Distributed Computing for Sequential Experimental Design and Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2603.21180v1
- Date: Sun, 22 Mar 2026 11:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.281286
- Title: ALMAB-DC: Active Learning, Multi-Armed Bandits, and Distributed Computing for Sequential Experimental Design and Black-Box Optimization
- Title(参考訳): ALMAB-DC: 逐次実験設計とブラックボックス最適化のためのアクティブラーニング、マルチアーマッドバンド、分散コンピューティング
- Authors: Foo Hui-Mean, Yuan-chin I Chang,
- Abstract要約: ALMAB-DCはブラックボックス実験のための逐次設計フレームワークである。
バンディット成分に対する累積的後悔境界を示し、Amdahlの法則を通した並列スケーラビリティを特徴付ける。
分散実行は、Amdahlの法則に従って、$K = 16$エージェントでの7.5times$スピードアップを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential experimental design under expensive, gradient-free objectives is a central challenge in computational statistics: evaluation budgets are tightly constrained and information must be extracted efficiently from each observation. We propose \textbf{ALMAB-DC}, a GP-based sequential design framework combining active learning, multi-armed bandits (MAB), and distributed asynchronous computing for expensive black-box experimentation. A Gaussian process surrogate with uncertainty-aware acquisition identifies informative query points; a UCB or Thompson-sampling bandit controller allocates evaluations across parallel workers; and an asynchronous scheduler handles heterogeneous runtimes. We present cumulative regret bounds for the bandit components and characterize parallel scalability via Amdahl's Law. We validate ALMAB-DC on five benchmarks. On the two statistical experimental-design tasks, ALMAB-DC achieves lower simple regret than Equal Spacing, Random, and D-optimal designs in dose--response optimization, and in adaptive spatial field estimation matches the Greedy Max-Variance benchmark while outperforming Latin Hypercube Sampling; at $K=4$ the distributed setting reaches target performance in one-quarter of sequential wall-clock rounds. On three ML/engineering tasks (CIFAR-10 HPO, CFD drag minimization, MuJoCo RL), ALMAB-DC achieves 93.4\% CIFAR-10 accuracy (outperforming BOHB by 1.7\,pp and Optuna by 1.1\,pp), reduces airfoil drag to $C_D = 0.059$ (36.9\% below Grid Search), and improves RL return by 50\% over Grid Search. All advantages over non-ALMAB baselines are statistically significant under Bonferroni-corrected Mann--Whitney $U$ tests. Distributed execution achieves $7.5\times$ speedup at $K = 16$ agents, consistent with Amdahl's Law.
- Abstract(参考訳): 評価予算は厳密に制約されており、各観測から情報を効率的に抽出する必要がある。
我々は,アクティブラーニング,マルチアームバンディット(MAB),高額なブラックボックス実験のための分散非同期コンピューティングを組み合わせたGPベースの逐次設計フレームワークである‘textbf{ALMAB-DC} を提案する。
ガウシアンプロセスは不確実性を認識した取得で代理し、UCBまたはトンプソンサンプリングバンディットコントローラは並列ワーカー間で評価を割り当て、非同期スケジューラは異種ランタイムを処理する。
バンディット成分に対する累積的後悔境界を示し、Amdahlの法則を通した並列スケーラビリティを特徴付ける。
ALMAB-DCを5つのベンチマークで検証した。
2つの統計的実験設計タスクにおいて、ALMAB-DCは、Equal Spacing、Random、D-Optimal設計に比べて、線量-応答最適化および適応的空間場推定において、ラテンハイパーキューブサンプリングを上回りながらGreedy Max-Varianceベンチマークと一致し、分散設定は、連続ウォールクロックラウンドの4分の1の目標性能に達する。
3つのML/エンジニアリングタスク(CIFAR-10 HPO、CFDドラッグ最小化、MuJoCo RL)では、ALMAB-DCは93.4\% CIFAR-10精度(BOHBを1.7\,ppとOptunaを1.1\,ppで上回る)を達成する。
非ALMABベースラインに対するすべての利点は、ボンフェロニ補正Mann-Whitney $U$テストの下で統計的に有意である。
分散実行は、Amdahlの法則に従って、$K = 16$エージェントでの7.5\times$スピードアップを達成する。
関連論文リスト
- $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Constraint-Aware Discrete-Time PID Gain Optimization for Robotic Joint Control Under Actuator Saturation [18.71390061417015]
実効ループは離散時間実行、アクチュエータ飽和、小さな遅延と測定の不完全さによって連続時間理論から逸脱する。
飽和離散時間ジョイント制御のための実装認識分析およびチューニングワークフローを提案する。
論文 参考訳(メタデータ) (2026-01-26T16:11:05Z) - OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting [0.0]
音声アシスタントは、キーワードスポッティング(KWS)を使用して、効率的でプライバシーに優しいアクティベーションを可能にする。
超低消費電力のTinyMLデバイス上で正確なKWSモデルを実現するには、精度とリソース制約の微妙なバランスが必要である。
本稿では,OASI(Objective-Aware Surrogate Initialization)を提案する。
論文 参考訳(メタデータ) (2025-12-17T17:32:33Z) - VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence [6.574641780732972]
大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。