論文の概要: Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners
- arxiv url: http://arxiv.org/abs/2602.17103v1
- Date: Thu, 19 Feb 2026 06:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.716846
- Title: Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners
- Title(参考訳): エージェントを改良したオンライン学習:マルチクラス、予算エージェント、バンド学習者
- Authors: Sajad Ashkezari, Shai Ben-David,
- Abstract要約: 我々は、最近導入された学習モデルの改善について検討し、エージェントは、より望ましいラベルとして保証される特徴値に小さな変更を加えることができる。
このモデルにおけるオンライン学習性の特徴を特徴づけるディメンションを提供することにより、これまでに公表された結果を広範囲に拡張し、マルチクラスの設定、盗聴フィードバックの設定における学習性、改善を行うためのモデリングエージェントのコストなどを分析する。
- 参考スコア(独自算出の注目度): 4.299934797034146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the recently introduced model of learning with improvements, where agents are allowed to make small changes to their feature values to be warranted a more desirable label. We extensively extend previously published results by providing combinatorial dimensions that characterize online learnability in this model, by analyzing the multiclass setup, learnability in a bandit feedback setup, modeling agents' cost for making improvements and more.
- Abstract(参考訳): 我々は、最近導入された学習モデルの改善について検討し、エージェントは、より望ましいラベルとして保証される特徴値に小さな変更を加えることができる。
このモデルにおけるオンライン学習性を特徴付ける組合せ的次元を提供し、マルチクラス設定、盗聴フィードバック設定における学習可能性、改善を行うためのモデリングエージェントのコストなどを分析することで、これまでに公表された結果を広範囲に拡張する。
関連論文リスト
- WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文 参考訳(メタデータ) (2025-10-21T16:52:00Z) - Conservative classifiers do consistently well with improving agents: characterizing statistical and online learning [7.857499581522375]
複数の新しい軸にまたがる改良を施したいわゆる学習性の特徴付けを行う。
より困難な環境での学習方法を示し、よく研究された有界雑音モデルの下で、より低い一般化誤差を達成する。
我々は、適切な学習と不適切な学習の両方のために、Attiasらによって提起されたオープンな質問を解決する。
論文 参考訳(メタデータ) (2025-06-05T17:13:59Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2024-12-30T12:06:27Z) - Enhancing Prediction Models with Reinforcement Learning [0.0]
本稿では,Ringier Axel Springer Polskaにおける大規模ニュースレコメンデーションシステムを提案する。
Aureusという名前のこのシステムは、多腕バンディットメソッドや大規模言語モデルに基づくディープラーニングモデルなど、さまざまなアルゴリズムを統合している。
論文 参考訳(メタデータ) (2024-11-21T12:24:11Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。