論文の概要: Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners
- arxiv url: http://arxiv.org/abs/2602.17103v1
- Date: Thu, 19 Feb 2026 06:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.716846
- Title: Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners
- Title(参考訳): エージェントを改良したオンライン学習:マルチクラス、予算エージェント、バンド学習者
- Authors: Sajad Ashkezari, Shai Ben-David,
- Abstract要約: 我々は、最近導入された学習モデルの改善について検討し、エージェントは、より望ましいラベルとして保証される特徴値に小さな変更を加えることができる。
このモデルにおけるオンライン学習性の特徴を特徴づけるディメンションを提供することにより、これまでに公表された結果を広範囲に拡張し、マルチクラスの設定、盗聴フィードバックの設定における学習性、改善を行うためのモデリングエージェントのコストなどを分析する。
- 参考スコア(独自算出の注目度): 4.299934797034146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the recently introduced model of learning with improvements, where agents are allowed to make small changes to their feature values to be warranted a more desirable label. We extensively extend previously published results by providing combinatorial dimensions that characterize online learnability in this model, by analyzing the multiclass setup, learnability in a bandit feedback setup, modeling agents' cost for making improvements and more.
- Abstract(参考訳): 我々は、最近導入された学習モデルの改善について検討し、エージェントは、より望ましいラベルとして保証される特徴値に小さな変更を加えることができる。
このモデルにおけるオンライン学習性を特徴付ける組合せ的次元を提供し、マルチクラス設定、盗聴フィードバック設定における学習可能性、改善を行うためのモデリングエージェントのコストなどを分析することで、これまでに公表された結果を広範囲に拡張する。
関連論文リスト
- WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文 参考訳(メタデータ) (2025-10-21T16:52:00Z) - Conservative classifiers do consistently well with improving agents: characterizing statistical and online learning [7.857499581522375]
複数の新しい軸にまたがる改良を施したいわゆる学習性の特徴付けを行う。
より困難な環境での学習方法を示し、よく研究された有界雑音モデルの下で、より低い一般化誤差を達成する。
我々は、適切な学習と不適切な学習の両方のために、Attiasらによって提起されたオープンな質問を解決する。
論文 参考訳(メタデータ) (2025-06-05T17:13:59Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2024-12-30T12:06:27Z) - Enhancing Prediction Models with Reinforcement Learning [0.0]
本稿では,Ringier Axel Springer Polskaにおける大規模ニュースレコメンデーションシステムを提案する。
Aureusという名前のこのシステムは、多腕バンディットメソッドや大規模言語モデルに基づくディープラーニングモデルなど、さまざまなアルゴリズムを統合している。
論文 参考訳(メタデータ) (2024-11-21T12:24:11Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Revisiting Meta-Learning as Supervised Learning [69.2067288158133]
メタラーニングと従来の教師付き学習の関連性を再考し,強化することで,原則的,統一的なフレームワークの提供を目指す。
タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。
この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。
論文 参考訳(メタデータ) (2020-02-03T06:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。