論文の概要: Mistake-bounded online learning with operation caps
- arxiv url: http://arxiv.org/abs/2509.03892v1
- Date: Thu, 04 Sep 2025 05:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.060597
- Title: Mistake-bounded online learning with operation caps
- Title(参考訳): 操作キャップを用いたミステイク・バウンドオンライン学習
- Authors: Jesse Geneson, Meien Li, Linus Tang,
- Abstract要約: 本稿では,オンライン学習における誤りバウンドモデルについて,ラウンド当たりの算術演算数に上限を設けて検討する。
任意の関数族を学習するのに必要となる1ラウンド当たりの算術演算の最小数に関する一般境界を証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the mistake-bound model of online learning with caps on the number of arithmetic operations per round. We prove general bounds on the minimum number of arithmetic operations per round that are necessary to learn an arbitrary family of functions with finitely many mistakes. We solve a problem on agnostic mistake-bounded online learning with bandit feedback from (Filmus et al, 2024) and (Geneson \& Tang, 2024). We also extend this result to the setting of operation caps.
- Abstract(参考訳): 本稿では,オンライン学習における誤りバウンドモデルについて,ラウンド当たりの算術演算数に上限を設けて検討する。
有限個の誤りを持つ任意の関数族を学習するのに必要となる1ラウンド当たりの算術演算の最小数に関する一般境界を証明する。
我々は, (Filmus et al, 2024) と (Geneson \& Tang, 2024) からの盗聴フィードバックを伴って, 誤認識によるオンライン学習の課題を解決する。
また、この結果を操作キャップの設定にまで拡張する。
関連論文リスト
- AI-rithmetic [22.733918825449148]
現代のAIシステムは、国際数学コンペでメダル獲得に成功している。
基本的な算術では頑固に悪いままであり、2つの数を加えるという単純なタスクで一貫して失敗する。
これらのモデルによるほとんどのエラーは、高度に解釈可能であり、誤った調整または正しく実行できないという原因による可能性があることを示す。
論文 参考訳(メタデータ) (2026-02-11T01:56:39Z) - Bayesian Algorithms for Adversarial Online Learning: from Finite to Infinite Action Spaces [51.513172647831745]
オンライン学習のためのフォーム・トンプソン・サンプリングをフルフィードバックで開発する。
我々は、後悔の分解を、学習者が先入観を期待したことを後悔させ、また、過度な後悔と呼ぶ先延ばし的な用語を示します。
論文 参考訳(メタデータ) (2025-02-20T18:10:12Z) - Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information [57.287431079644705]
そこで我々は,Stackelbergゲームにおけるオンライン学習の問題について,リーダーとフォロワーの列の側情報を用いて検討した。
我々は,リーダに対する学習アルゴリズムを提供し,盗聴フィードバックの下でO(T1/2)$後悔を達成する。
論文 参考訳(メタデータ) (2025-01-31T22:40:57Z) - On the Growth of Mistakes in Differentially Private Online Learning: A Lower Bound Perspective [8.104151304193216]
我々は、差分的プライベート(DP)オンライン学習アルゴリズムに対して、より低いバウンダリを提供する。
我々の研究は、DP-オンライン学習の下位境界の設定に向けた最初の成果である。
論文 参考訳(メタデータ) (2024-02-26T17:49:37Z) - Bounds on the price of feedback for mistake-bounded online learning [0.0]
各種オンライン学習シナリオ(Auer and Long, Machine Learning, 1999)の最悪のケース境界を改善した。
本研究では,2因子による遅延曖昧性強化学習のための上界,2.41因子による関数群構成学習のための上界を抽出した。
また、同じ論文から$k$の関数族の構成を$Theta(lnk)$の係数で学習するための下界も改善し、上界を定数係数に整合させる。
論文 参考訳(メタデータ) (2024-01-11T09:56:08Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Simple online learning with consistent oracle [55.43220407902113]
オンライン学習は、学習アルゴリズムが、どの時点でも、今まで見てきたすべての例に一致する関数をクラスから与えることができる、という、一貫性のあるオラクルを通じてのみクラスにアクセスすることができるモデルであると考えている。
論文 参考訳(メタデータ) (2023-08-15T21:50:40Z) - Learning to solve arithmetic problems with a virtual abacus [0.35911228556176483]
本稿では,認知エージェントが算術的問題を解くための学習方法をシミュレートする,深層強化学習フレームワークを提案する。
提案モデルでは,複数桁の加算と減算をうまく学習し,誤差率を1%以下に抑えることができた。
最も一般的なエラーパターンを分析して、設計選択による制限とバイアスをよりよく理解します。
論文 参考訳(メタデータ) (2023-01-17T13:25:52Z) - Monotone Learning [86.77705135626186]
各学習アルゴリズムAは、同様の性能で単調なクラスに変換可能であることを示す。
これは、パフォーマンスを損なうことなく、確実に非単調な振る舞いを回避できることを示している。
論文 参考訳(メタデータ) (2022-02-10T18:51:57Z) - Online non-convex optimization with imperfect feedback [33.80530308979131]
非損失を伴うオンライン学習の問題を考える。
フィードバックの観点からは、学習者が各段階における損失関数の不正確なモデル(または構成)を観測すると仮定する。
本稿では,二元平均化に基づく混合戦略学習政策を提案する。
論文 参考訳(メタデータ) (2020-10-16T16:53:13Z) - Adversarial Online Learning with Changing Action Sets: Efficient
Algorithms with Approximate Regret Bounds [48.312484940846]
睡眠の専門家やバンドイットによるオンライン学習の問題を再考する。
各タイムステップにおいて、アルゴリズムが選択できるアクションのサブセットのみが利用可能である。
我々は、一般的な睡眠専門家/バンド問題に対して、アポキシマ-レグレット保証を提供するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-03-07T02:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。