Fugu-MT 論文翻訳(概要): Approximate information for efficient exploration-exploitation strategies

論文の概要: Approximate information for efficient exploration-exploitation strategies

arxiv url: http://arxiv.org/abs/2307.01563v1
Date: Tue, 4 Jul 2023 08:34:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 17:49:04.270353
Title: Approximate information for efficient exploration-exploitation strategies
Title（参考訳）: 効率的な探査・探査戦略のための近似情報
Authors: Alex Barbier-Chebbah (IP, CNRS, UPCit\'e), Christian L. Vestergaard (IP, CNRS, UPCit\'e), Jean-Baptiste Masson (IP, CNRS, UPCit\'e)
Abstract要約: 探索-探索のジレンマは、現在の知識を即時利益のために活用するか、または潜在的長期報酬のために新しい道を探るかを決定する。本稿では,エントロピーを解析的に近似した新しいアルゴリズムである近似情報(AIM)を導入し,各時点にどのアームを引くかを選択する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the exploration-exploitation dilemma inherent in decision-making, focusing on multi-armed bandit problems. The problems involve an agent deciding whether to exploit current knowledge for immediate gains or explore new avenues for potential long-term rewards. We here introduce a novel algorithm, approximate information maximization (AIM), which employs an analytical approximation of the entropy gradient to choose which arm to pull at each point in time. AIM matches the performance of Infomax and Thompson sampling while also offering enhanced computational speed, determinism, and tractability. Empirical evaluation of AIM indicates its compliance with the Lai-Robbins asymptotic bound and demonstrates its robustness for a range of priors. Its expression is tunable, which allows for specific optimization in various settings.
Abstract（参考訳）: 本稿では,多腕バンディット問題に着目し,意思決定に固有の探索・探索ジレンマについて論じる。問題は、エージェントが現在の知識を即時利益に活用するか、または潜在的長期報酬のために新しい道を探るかを決定することである。本稿では,エントロピー勾配の解析的近似を用いて,各時点にどのアームを引くかを選択する新しいアルゴリズム,近似情報最大化(AIM)を提案する。 AIMはInfomaxとThompsonのサンプリングのパフォーマンスと一致し、計算速度、決定性、トラクタビリティも向上した。 aimの実証的な評価は、lai-robbinsの漸近的な境界に準拠していることを示し、様々な事前値に対する堅牢性を示している。その表現は調整可能であり、様々な設定で特定の最適化を可能にする。

関連論文リスト

Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文参考訳（メタデータ） (2024-12-16T18:59:53Z)
Increasing the Value of Information During Planning in Uncertain Environments [0.0]
我々は,情報収集行動の価値をよりよく反映して,最先端のオンライン計画を改善する新しいアルゴリズムを開発した。結果,新しいアルゴリズムはPOMCPよりも高い性能を示した。
論文参考訳（メタデータ） (2024-09-14T22:04:34Z)
Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T02:33:50Z)
Online Learning Approach for Survival Analysis [1.0499611180329806]
生存分析のためのオンライン数学フレームワークを導入し、動的環境や検閲データへのリアルタイム適応を可能にする。このフレームワークは、最適2階オンライン凸最適化アルゴリズムによるイベント時間分布の推定を可能にする-オンラインニュートンステップ(ONS)
論文参考訳（メタデータ） (2024-02-07T08:15:30Z)
STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。 KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文参考訳（メタデータ） (2023-01-28T00:49:28Z)
Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文参考訳（メタデータ） (2022-10-04T04:43:58Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。 MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文参考訳（メタデータ） (2022-02-22T05:41:43Z)
APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文参考訳（メタデータ） (2021-08-31T16:30:35Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。 i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文参考訳（メタデータ） (2021-05-20T01:57:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。