論文の概要: Beyond Static Bias: Adaptive Multi-Fidelity Bandits with Improving Proxies
- arxiv url: http://arxiv.org/abs/2605.08558v1
- Date: Fri, 08 May 2026 23:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.735648
- Title: Beyond Static Bias: Adaptive Multi-Fidelity Bandits with Improving Proxies
- Title(参考訳): 静的バイアスを超えて - プロキシを改良した適応型マルチフィデリティバンド
- Authors: Muyun Lu, Haoyang Hong, Huazheng Wang, Ying Lin,
- Abstract要約: MF-MAB(Multi-fidelity Multiarmed bandits)は、様々なフィードバックソースを用いて、コストと精度の両方で個々の腕を評価することができる。
適応的なMF-MABをプロキシソースの改善とともに検討し、低忠実度ソースが繰り返し使用することでより情報的になる正準二忠実度ケースに焦点をあてる。
本稿では,低忠実度サンプリングの費用対効果とエスカレーションのタイミングを決定するために,境界付き継続規則を用いた楽観的アルゴリズムであるThreshold-Based Adaptive Continuation Companion (TACC)を提案する。
- 参考スコア(独自算出の注目度): 16.078266766067838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an extension of the classical multi-armed bandit problem, multi-fidelity multi-armed bandits (MF-MAB) enable individual arms to be evaluated using diverse feedback sources that vary in both cost and accuracy. Prior stochastic models typically assume fixed low-to-high fidelity discrepancies, whereas modern proxy sources, such as learning-based simulators and Large Language Models (LLMs), can be improved using additional calibration. We investigate adaptive MF-MAB with improving proxy sources, and focus on the canonical two-fidelity case in which the low-fidelity source becomes more informative with repeated use. To capture this dynamic, we introduce a selected-average mismatch bound that converts dynamic low-fidelity observations into improvement-aware confidence bounds for the high-fidelity target. We propose the Threshold-Based Adaptive Continuation Companion (TACC), an optimistic algorithm that uses a bounded continuation rule to decide when low-fidelity sampling remains cost-effective and when to escalate. We prove an instance-dependent regret bound showing that, for detected intermediate arms, adaptive continuation replaces logarithmic high-fidelity confirmation with bounded low-fidelity continuation. Experiments on synthetic bandits and an LLM-as-a-judge policy-evaluation task examine when continuation improves cost-weighted regret.
- Abstract(参考訳): 古典的マルチアームバンディット問題の拡張として、MF-MAB(MF-MAB)は、コストと精度の両方が異なる多様なフィードバック源を用いて、個々のアームを評価できる。
従来の確率モデルでは、固定された低-高忠実度差を仮定するのに対し、学習ベースシミュレータやLLM(Large Language Models)のような現代的なプロキシソースは、追加のキャリブレーションによって改善することができる。
適応的なMF-MABをプロキシソースの改善とともに検討し、低忠実度ソースが繰り返し使用することでより情報的になる正準二忠実度ケースに焦点をあてる。
このダイナミクスを捉えるために、我々は、動的低忠実度観測を高忠実度目標に対する改善対応信頼境界に変換する、選択平均ミスマッチバウンダリを導入する。
本稿では,低忠実度サンプリングの費用対効果とエスカレーションのタイミングを決定するために,境界付き継続規則を用いた楽観的アルゴリズムであるThreshold-Based Adaptive Continuation Companion (TACC)を提案する。
我々は、検出された中間腕に対して、適応的継続が対数的高忠実性確認と有界低忠実性継続に取って代わることを示す、インスタンス依存的後悔境界を証明した。
LLM-as-a-judge Policy-evaluation task(LCM-as-a-judge Policy-evaluation task)の実験は、継続がコスト重み付き後悔を改善するかを調べる。
関連論文リスト
- Architecture-agnostic Lipschitz-constant Bayesian header and its application to resolve semantically proximal classification errors with vision transformers [0.0]
この研究は、アーキテクチャに依存しないリプシッツ・コンスタント・ベイジアンヘッダを示し、視覚変換器のような特徴抽出器に統合することができる。
また,不確実性と不確かさを誤分類率で捉えるための新しい指標と,適応型算術・平均融合方式を提案する。
モンテカルロサンプリングにより計算コストは上昇するが、事前に訓練されたバックボーンとのプラグ・アンド・プレイの互換性を提供する。
論文 参考訳(メタデータ) (2026-05-07T09:18:06Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation [23.667292152163068]
本報告では,不公平を意識した推薦を潜在状態浄化問題として再定義するフレームワークである textbfDSRM-HRL を提案する。
DSRM-HRLは「リッチ・ゲット・リッチ・フィードバック・ループ」を効果的に破り、レコメンデーションユーティリティーと露出エクイティとの間に優れたフロンティアを達成できることを示す。
論文 参考訳(メタデータ) (2026-03-04T08:14:21Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - FIRE: Multi-fidelity Regression with Distribution-conditioned In-context Learning using Tabular Foundation Models [3.8824066002669855]
MF(Multi-fidelity)レグレッションは、極端なデータ不均衡のレギュレーションでしばしば機能する。
トレーニングフリーなMFフレームワークであるFIREを紹介する。
Fireは、最先端のGPベースまたはディープラーニングのMF回帰メソッドの7つよりもパフォーマンスタイムのトレードオフが強い。
論文 参考訳(メタデータ) (2026-01-29T22:29:58Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z) - A Latent Variable Approach for Non-Hierarchical Multi-Fidelity Adaptive
Sampling [18.02518660778453]
資源を忠実度モデル間で動的に割り当てるアダプティブサンプリング手法は、設計空間の探索と活用において高い効率を達成することができる。
本稿では,異なる忠実度モデルに対する潜伏埋め込みとそれに関連する事前解析に基づいて,それらの相関関係を適応サンプリングに明示的に活用するフレームワークを提案する。
提案手法は,MFグローバルフィッティング(GF)とベイズ最適化(BO)の両問題において,収束率とロバスト性においてベンチマーク法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T03:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。