論文の概要: Adaptive Foundation Models for Online Decisions: HyperAgent with Fast Incremental Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2407.13195v2
- Date: Sun, 21 Jul 2024 16:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 13:31:17.995773
- Title: Adaptive Foundation Models for Online Decisions: HyperAgent with Fast Incremental Uncertainty Estimation
- Title(参考訳): オンライン決定のための適応的基礎モデル:高速なインクリメンタル不確実性推定を伴うハイパーエージェント
- Authors: Yingru Li, Jiawei Xu, Zhi-Quan Luo,
- Abstract要約: GPT-HyperAgentは,GPTとHyperAgentを併用した拡張手法である。
我々はHyperAgentが$tildeO(log T)$ per-step計算複雑性を用いて高速なインクリメンタル不確実性推定を実現することを証明した。
解析により,HyperAgentの遺残順序は線形文脈帯域における正確なトンプソンサンプリングと一致することが示された。
- 参考スコア(独自算出の注目度): 20.45450465931698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models often struggle with uncertainty when faced with new situations in online decision-making, necessitating scalable and efficient exploration to resolve this uncertainty. We introduce GPT-HyperAgent, an augmentation of GPT with HyperAgent for uncertainty-aware, scalable exploration in contextual bandits, a fundamental online decision problem involving natural language input. We prove that HyperAgent achieves fast incremental uncertainty estimation with $\tilde{O}(\log T)$ per-step computational complexity over $T$ periods under the linear realizable assumption. Our analysis demonstrates that HyperAgent's regret order matches that of exact Thompson sampling in linear contextual bandits, closing a significant theoretical gap in scalable exploration. Empirical results in real-world contextual bandit tasks, such as automated content moderation with human feedback, validate the practical effectiveness of GPT-HyperAgent for safety-critical decisions. Our code is open-sourced at \url{https://github.com/szrlee/GPT-HyperAgent/}.
- Abstract(参考訳): ファウンデーションモデルは、オンライン意思決定の新たな状況に直面し、この不確実性を解決するためにスケーラブルで効率的な探索を必要とする場合、しばしば不確実性に苦慮する。
GPT-HyperAgentは,自然言語入力に関わる基本的なオンライン決定問題である,不確実性を認識し,拡張性のある探索を行うためのGPT-HyperAgentである。
我々はHyperAgentが、線形実現可能な仮定の下で、$\tilde{O}(\log T)$ 1ステップの計算複雑性で高速なインクリメンタル不確実性推定を実現することを証明した。
我々の分析は、ハイパーエージェントの後悔の順序が線形文脈帯域における正確なトンプソンサンプリングと一致していることを示し、スケーラブルな探索において重要な理論的ギャップを閉じた。
GPT-HyperAgentの安全性決定における実用的有効性を検証するために,人間のフィードバックによる自動コンテンツモデレーションなどの実世界のコンテキスト的盗聴作業の実証的な結果を得た。
我々のコードは \url{https://github.com/szrlee/GPT-HyperAgent/} でオープンソース化されています。
関連論文リスト
- Uncertainty of Joint Neural Contextual Bandit [0.41436032949434404]
本稿では,1つのモデルにおける全ての推奨項目を補完する,結合型ニューラルネットワークのコンテキスト的包帯解について述べる。
パラメータ $alpha$ のチューニングは通常、その性質のため、実際は複雑である。
我々は, 統合神経コンテキストバンドモデルの不確実性$sigma$に関する理論的解析と実験的知見の両方を提供する。
論文 参考訳(メタデータ) (2024-06-04T17:38:24Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent [23.669599662214686]
HyperAgentは、RLにおける探索のためのハイパーモデルフレームワークに基づく強化学習(RL)アルゴリズムである。
我々はHyperAgentが大規模深部RLベンチマークで堅牢なパフォーマンスを提供することを示した。
問題の大きさで最適にスケールし、Atariスイートで顕著な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。
論文 参考訳(メタデータ) (2024-02-05T07:07:30Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。
混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。
バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-24T18:54:29Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems:
An Evidence Theoretic and Meta-Heuristic Approach [0.0]
ICSネットワークにおけるIDSによる不正な警告は、経済的および運用上の重大な損害をもたらす可能性がある。
本研究は,CPS電力系統における誤警報の事前分布を伴わずに不確実性に対処し,誤警報を低減する手法を提案する。
論文 参考訳(メタデータ) (2021-11-20T00:05:39Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。