論文の概要: Information maximization for a broad variety of multi-armed bandit games
- arxiv url: http://arxiv.org/abs/2503.15962v1
- Date: Thu, 20 Mar 2025 08:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:15.507540
- Title: Information maximization for a broad variety of multi-armed bandit games
- Title(参考訳): 多様な多腕バンディットゲームのための情報最大化
- Authors: Alex Barbier-Chebbah, Christian L. Vestergaard, Jean-Baptiste Masson,
- Abstract要約: 情報と自由エネルギー探索の原則は、エージェントが特定の目標とポリシーに従ってアクションを最適化する一般的なルールを提供する。
本稿では、より複雑で構造化されたバンディット問題に対する物理学に基づくアプローチの広範な拡張について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Information and free-energy maximization are physics principles that provide general rules for an agent to optimize actions in line with specific goals and policies. These principles are the building blocks for designing decision-making policies capable of efficient performance with only partial information. Notably, the information maximization principle has shown remarkable success in the classical bandit problem and has recently been shown to yield optimal algorithms for Gaussian and sub-Gaussian reward distributions. This article explores a broad extension of physics-based approaches to more complex and structured bandit problems. To this end, we cover three distinct types of bandit problems, where information maximization is adapted and leads to strong performance. Since the main challenge of information maximization lies in avoiding over-exploration, we highlight how information is tailored at various levels to mitigate this issue, paving the way for more efficient and robust decision-making strategies.
- Abstract(参考訳): 情報と自由エネルギーの最大化(英語: Information and Free-Energy maximization)は、エージェントが特定の目標とポリシーに従って行動の最適化を行うための一般的なルールを提供する物理原理である。
これらの原則は、部分的な情報だけで効率的なパフォーマンスを実現できる意思決定ポリシーを設計するためのビルディングブロックである。
特に、情報最大化原理は古典的バンディット問題において顕著な成功を示し、近年はガウスおよびガウス以下の報酬分布に対する最適アルゴリズムを導出することが示されている。
本稿では、より複雑で構造化されたバンディット問題に対する物理学に基づくアプローチの広範な拡張について考察する。
この目的のために、情報最大化が適応され、高い性能をもたらす3種類のバンドイット問題を取り上げる。
情報の最大化の主な課題は、過剰な探索を避けることにあるため、この問題を緩和し、より効率的で堅牢な意思決定戦略の道を開くために、情報を様々なレベルで調整する方法について強調する。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Robust Explainable Recommendation [10.186029242664931]
本稿では,外部攻撃に耐えられる機能対応型レコメンデータの汎用フレームワークを提案する。
私たちのフレームワークは、モデルの内部構造や本質的なユーティリティに関係なく、実装が簡単で、異なるメソッドをサポートします。
論文 参考訳(メタデータ) (2024-05-03T05:03:07Z) - Approximate information maximization for bandit games [5.531045175352308]
本稿では,システム内のキー変数の情報ゲインに対する近似を最大化する新しい帯域幅アルゴリズムを提案する。
経験的成功により,ガウス報酬を用いた二本腕バンディット問題に対する最適性を証明する。
このアプローチはより複雑なバンディット設定に効率よく適応することができ、マルチアームバンディット問題に対する情報アプローチのさらなる調査を求めることができる。
論文 参考訳(メタデータ) (2023-10-19T08:15:03Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems [6.009759445555003]
この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
本研究では,高次元特徴ベクトルを用いた線形帯域問題に対する意思決定ポリシーを開発する。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
論文 参考訳(メタデータ) (2022-02-07T13:51:19Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Decisions, Counterfactual Explanations and Strategic Behavior [16.980621769406923]
戦略的な設定で実用性の観点から最適な政策と対実的な説明を見つける。
事前に定義されたポリシーを考えると、最適の対実的説明の集合を見つける問題はNPハードであることが示される。
本研究では,マトロイド制約を問題定式化に組み込むことで,最適対実的説明セットの多様性を高めることができることを示した。
論文 参考訳(メタデータ) (2020-02-11T12:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。