論文の概要: From Betting to Empirical Bernstein LIL
- arxiv url: http://arxiv.org/abs/2605.22124v1
- Date: Thu, 21 May 2026 07:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.151321
- Title: From Betting to Empirical Bernstein LIL
- Title(参考訳): 賭けから経験的Bernstein LILへ
- Authors: Francesco Orabona,
- Abstract要約: これは、私が2017-2018年に書いた技術レポートの冗長なコピーで、オンライン賭け戦略の富の保証を使って反復対数の法則を取得する。
- 参考スコア(独自算出の注目度): 13.093938062156852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is a verbatim copy of a technical report I wrote in 2017-2018 to obtain the law of the iterated logarithm using the guarantee on the wealth of an online betting strategy.
- Abstract(参考訳): これは、私が2017-2018年に書いた技術レポートの冗長なコピーで、オンライン賭け戦略の富の保証を使って反復対数の法則を取得する。
関連論文リスト
- Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning [51.77462571479799]
マルチエージェント模倣学習(MA-IL)は、マルチエージェント対話ドメインにおけるインタラクションのエキスパートによる実証から最適なポリシーを学ぶことを目的としている。
学習したポリシのパフォーマンスに関する保証は存在するが、オフラインMA-ILでは、学習した警察がナッシュ均衡からどこまで離れているかの特徴が欠落している。
論文 参考訳(メタデータ) (2026-02-24T15:38:11Z) - Multi-Source Retrieval and Reasoning for Legal Sentencing Prediction [50.6851250608938]
厳密な客観的知識と柔軟な主観的推論を必要とするため、LSPは依然として困難である。
我々は,LLMにおけるマルチソース検索と推論を統合して強化学習を行うフレームワークであるMSR2$を提案する。
2つの実世界のデータセットの実験によると、$MSR2$はLSPの精度と解釈可能性の両方を改善している。
論文 参考訳(メタデータ) (2026-02-04T15:55:55Z) - Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games [53.447182734351]
Reverse Kullback-Leibler (KL) 正則化の下で, サンプル効率の向上を実現するアルゴリズムを開発し, 解析する。
我々は,2プレイヤーゼロサムマトリクスゲームとマルコフゲームの両方について検討する:マトリックスゲームでは,楽観的なボーナス付きベストレスポンスサンプリングに基づくアルゴリズムOMGを提案し,アルゴリズムSOMGを用いてマルコフゲームに拡張する。
両アルゴリズムは、標準の$widetildemathcalO(sqrtT)に加えて、KL正規化強度$beta$と共に逆スケールする$T$の対数後悔を実現する。
論文 参考訳(メタデータ) (2025-10-15T01:00:54Z) - Grouped Satisficing Paths in Pure Strategy Games: a Topological Perspective [15.76917401735207]
MARLアルゴリズムで広く採用されている原則は「ウィンステイ、負けシフト」であり、エージェントが最高の応答を達成すれば現在の戦略を維持することを指示する。
本稿では,そのような特性に対して十分な条件を確立し,任意の有限状態マルコフゲーム,および任意の$N$-playerゲームが有限長充足パスの存在を保証することを示す。
論文 参考訳(メタデータ) (2025-09-27T07:07:27Z) - LLMs for Legal Subsumption in German Employment Contracts [3.3916160303055567]
本研究では,ドイツの雇用契約における節の合法性を評価するために,大規模言語モデルと文脈内学習の利用について検討する。
我々の研究は、異なるLLMが3つの法的文脈変化の下で、節を「無効」、「不公平」、または「ボイド」に分類する能力を評価する。
その結果,全文ソースでは性能が適度に向上し,検査ガイドラインでは空白節のリコールや重み付きF1スコアが80%に向上した。
論文 参考訳(メタデータ) (2025-07-02T14:07:54Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - Damped Online Newton Step for Portfolio Selection [96.0297968061824]
古典的なオンラインポートフォリオ選択の問題を再考し、各ラウンドで学習者がポートフォリオの集合上の分布を選択し、その富を割り当てる。
この問題に対する対数的後悔を達成する既存のアルゴリズムは、ラウンドの総数とスケールする時間と空間の複雑さがある。
対数的後悔を伴う最初の実用的オンラインポートフォリオ選択アルゴリズムを提示し、その時間と空間の複雑さは水平線上で対数的にのみ依存する。
論文 参考訳(メタデータ) (2022-02-15T17:01:55Z) - Text-guided Legal Knowledge Graph Reasoning [11.089663225933412]
本稿では,関連する法律規定を予測することを目的とした,新しい法律提供予測(lpp)の適用を提案する。
広東省庁のWebサイトから現実の法的規定データを収集し、LegalLPPという法的データセットを構築します。
論文 参考訳(メタデータ) (2021-04-06T04:42:56Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Unlocking New York City Crime Insights using Relational Database
Embeddings [1.5469452301122173]
このバージョンは、著者が提出時点でライセンスに同意する権利を持っていなかったため、arXiv管理者によって取り下げられた。
このバージョンは、著者が提出時点でライセンスに同意する権利を持っていなかったため、arXiv管理者によって取り下げられた。
論文 参考訳(メタデータ) (2020-05-19T17:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。