Fugu-MT 論文翻訳(概要): Regret Analysis of Dyadic Search

関連論文リスト

Fewer Than 1% of Explainable AI Papers Validate Explainability with Humans [0.8699677835130409]
本研究では、人間の説明可能性の主張を評価するために、説明可能なAI(XAI)文献を大規模に分析する。また,XAI手法の評価にヒトの関与を示唆する用語を含む論文は253件のみで,その内128件が何らかの形で人間の研究を行った。人間の説明可能性の主張と証拠に基づく検証の間には重大なギャップがあり,XAI研究の厳格性に対する懸念が高まっている。
論文参考訳（メタデータ） (2025-03-13T18:39:50Z)
Implicit Search via Discrete Diffusion: A Study on Chess [104.74301574891359]
本稿では,DiffuSearchを提案する。DiffuSearchは,離散拡散モデルを用いて未来を探索し,テキストをシンプルに検索するモデルである。 DiffuSearchをChessという古典的なボードゲームでインスタンス化する。 DiffuSearchは、検索不要と明示的な検索強化ポリシーの両方で優れていることを示す。
論文参考訳（メタデータ） (2025-02-27T06:25:15Z)
Online Algorithm for Aggregating Experts' Predictions with Unbounded Quadratic Loss [72.32459441619388]
本稿では,損失の上限に関する事前知識を必要としない専門家予測を集約するアルゴリズムを提案する。このアルゴリズムは、専門家の損失の指数的再考に基づいている。
論文参考訳（メタデータ） (2025-01-11T10:52:59Z)
Regret of exploratory policy improvement and $q$-learning [12.07783627081662]
我々は,Jia と Zhou が導入した$q$-learning および関連アルゴリズムの収束について検討する。モデルパラメータの成長と規則性に関する適切な条件の下で、探索的政策改善アルゴリズムと$q$-learningアルゴリズムの両方の量的誤りと後悔の分析を行う。
論文参考訳（メタデータ） (2024-11-02T16:28:34Z)
Finite Sample and Large Deviations Analysis of Stochastic Gradient Algorithm with Correlated Noise [15.724207170366846]
我々は,ステップサイズ勾配アルゴリズムの有限標本残差を解析した。相関雑音を仮定し,解析の体系的アプローチとして摂動リアプノフ関数を用いる。
論文参考訳（メタデータ） (2024-10-11T01:38:27Z)
RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。 RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文参考訳（メタデータ） (2024-09-15T02:07:28Z)
Bregman-divergence-based Arimoto-Blahut algorithm [53.64687146666141]
本稿では,Arimoto-BlahutアルゴリズムをBregman-Diversergenceシステム上で定義された一般関数に一般化する。本稿では,古典的および量子速度歪み理論に適用可能な凸最適化自由アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-10T06:16:24Z)
Rectangle Search: An Anytime Beam Search (Extended Version) [9.59799149404787]
任意の検索アルゴリズムは、(潜在的に最適でない)解をできるだけ早く見つけようとする。本稿では,ビーム探索に基づく新しい長方形探索法を提案する。
論文参考訳（メタデータ） (2023-12-19T19:50:45Z)
An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文参考訳（メタデータ） (2023-06-15T15:37:31Z)
An Analysis of Reinforcement Learning for Malaria Control [1.0323063834827415]
本稿では,マラリア対策の定式化について検討し,文献におけるいくつかの定式化の包括的分析について述べる。これまでの研究とは対照的に, 上位信頼境界に基づく単純なアルゴリズムは, 優れたマラリア政策を学習するのに十分であることを示す。
論文参考訳（メタデータ） (2021-07-19T16:00:40Z)
Limited depth bandit-based strategy for Monte Carlo planning in continuous action spaces [4.1208902102156015]
本稿では,階層最適化(HOO)アルゴリズムの限界深度変種であるLD-HOOを提案する。提案アルゴリズムは,より高速で,よりメモリ効率のよいオリジナルのHOOと同様の累積的後悔を示す。次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-29T17:30:01Z)
Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文参考訳（メタデータ） (2021-06-27T23:41:57Z)
Analysis and Design of Thompson Sampling for Stochastic Partial Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文参考訳（メタデータ） (2020-06-17T05:48:33Z)
Greedy Algorithm almost Dominates in Smoothed Contextual Bandits [100.09904315064372]
オンライン学習アルゴリズムは探索と搾取のバランスをとる必要がある。欲求的アプローチは、他のアルゴリズムのベイズ的後悔率とほぼ一致していることを示す。
論文参考訳（メタデータ） (2020-05-19T18:11:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Regret Analysis of Dyadic Search

関連論文リスト