論文の概要: Dependency Structure Search Bayesian Optimization for Decision Making Models
- arxiv url: http://arxiv.org/abs/2308.00629v5
- Date: Sun, 10 Nov 2024 17:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:39.863396
- Title: Dependency Structure Search Bayesian Optimization for Decision Making Models
- Title(参考訳): 意思決定モデルのための依存構造探索ベイズ最適化
- Authors: Mohit Rajpal, Lac Gia Tran, Yehong Zhang, Bryan Kian Hsiang Low,
- Abstract要約: 本稿では,役割の概念を通じてエージェント相互作用のダイナミクスをモデル化する,コンパクトな多層アーキテクチャを提案する。
不正な報奨や軽微な報奨に強い経験的結果を示した。
- 参考スコア(独自算出の注目度): 29.95525433889418
- License:
- Abstract: Many approaches for optimizing decision making models rely on gradient based methods requiring informative feedback from the environment. However, in the case where such feedback is sparse or uninformative, such approaches may result in poor performance. Derivative-free approaches such as Bayesian Optimization mitigate the dependency on the quality of gradient feedback, but are known to scale poorly in the high-dimension setting of complex decision making models. This problem is exacerbated if the model requires interactions between several agents cooperating to accomplish a shared goal. To address the dimensionality challenge, we propose a compact multi-layered architecture modeling the dynamics of agent interactions through the concept of role. We introduce Dependency Structure Search Bayesian Optimization to efficiently optimize the multi-layered architecture parameterized by a large number of parameters, and show an improved regret bound. Our approach shows strong empirical results under malformed or sparse reward.
- Abstract(参考訳): 意思決定モデルを最適化するための多くのアプローチは、環境からの情報的フィードバックを必要とする勾配に基づく手法に依存している。
しかし、そのようなフィードバックが疎い場合や非形式的な場合、そのようなアプローチは性能が低下する可能性がある。
ベイズ最適化のような微分自由なアプローチは、勾配フィードバックの品質への依存を緩和するが、複雑な意思決定モデルの高次元設定では不十分にスケールすることが知られている。
この問題は、モデルが共有目標を達成するために協調する複数のエージェント間の相互作用を必要とする場合、さらに悪化する。
そこで本研究では, エージェント相互作用のダイナミクスを, 役割の概念を通じてモデル化した, コンパクトな多層アーキテクチャを提案する。
従属構造探索ベイズ最適化を導入し、多数のパラメータでパラメータ化された多層アーキテクチャを効率的に最適化し、改善された後悔境界を示す。
提案手法は, 不正又はスパース報酬下での強い経験的結果を示す。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Federated Multi-Level Optimization over Decentralized Networks [55.776919718214224]
エージェントが隣人としか通信できないネットワーク上での分散マルチレベル最適化の問題について検討する。
ネットワーク化されたエージェントが1つの時間スケールで異なるレベルの最適化問題を解くことができる新しいゴシップに基づく分散マルチレベル最適化アルゴリズムを提案する。
提案アルゴリズムは, ネットワークサイズと線形にスケーリングし, 各種アプリケーション上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-10T00:21:10Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Bayesian Quality-Diversity approaches for constrained optimization
problems with mixed continuous, discrete and categorical variables [0.3626013617212667]
シミュレーション予算の制限という観点から,混合変数に基づく新しい品質多様性手法を提案する。
提案手法は、複雑なシステム設計のための意思決定者にとって貴重なトレードオフを提供する。
論文 参考訳(メタデータ) (2023-09-11T14:29:47Z) - Differentiable Multi-Target Causal Bayesian Experimental Design [43.76697029708785]
本稿では,ベイズ最適設計問題に対する勾配に基づくアプローチを導入し,バッチ環境で因果モデルを学習する。
既存の手法は、一連の実験を構築するためにグリーディ近似に依存している。
そこで本稿では,最適介入対象ペアの集合を取得するための,概念的にシンプルな勾配に基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T11:32:59Z) - Scalable Bayesian optimization with high-dimensional outputs using
randomized prior networks [3.0468934705223774]
本稿では,確率化された先行するニューラルネットワークの自己ストラップ型アンサンブルに基づくBOとシーケンシャル意思決定のためのディープラーニングフレームワークを提案する。
提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合においても,設計変数と関心量の関数的関係を近似することができることを示す。
提案手法をBOの最先端手法に対して検証し,高次元出力の課題に対して優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-14T18:55:21Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。
我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。
提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文 参考訳(メタデータ) (2022-05-05T14:25:54Z) - Combinatorial Optimization for Panoptic Segmentation: An End-to-End
Trainable Approach [23.281726932718232]
本稿では,同時セマンティクスとインスタンスセグメンテーションのためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,大規模実世界の課題において,ディープラーニングと協調して最適化を用いることの有用性を示す。
論文 参考訳(メタデータ) (2021-06-06T17:39:13Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。