論文の概要: Invariance-Based Dynamic Regret Minimization
- arxiv url: http://arxiv.org/abs/2603.03843v1
- Date: Wed, 04 Mar 2026 08:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.238664
- Title: Invariance-Based Dynamic Regret Minimization
- Title(参考訳): 不変性に基づく動的レグレスト最小化
- Authors: Margherita Lazzaretto, Jonas Peters, Niklas Pfister,
- Abstract要約: 我々は、時間とともに、リニアパラメータが報酬とコンテキストを接続する非定常線形帯域を考える。
我々は、報酬モデルが定常成分と非定常成分に分解されると仮定して、変化に適応しつつ、歴史的データを活用することを提案する。
- 参考スコア(独自算出の注目度): 8.349786817840858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider stochastic non-stationary linear bandits where the linear parameter connecting contexts to the reward changes over time. Existing algorithms in this setting localize the policy by gradually discarding or down-weighting past data, effectively shrinking the time horizon over which learning can occur. However, in many settings historical data may still carry partial information about the reward model. We propose to leverage such data while adapting to changes, by assuming the reward model decomposes into stationary and non-stationary components. Based on this assumption, we introduce ISD-linUCB, an algorithm that uses past data to learn invariances in the reward model and subsequently exploits them to improve online performance. We show both theoretically and empirically that leveraging invariance reduces the problem dimensionality, yielding significant regret improvements in fast-changing environments when sufficient historical data is available.
- Abstract(参考訳): 我々は、線形パラメータが報酬に接続する確率的非定常線形包帯について、時間とともに変化すると考える。
この設定で既存のアルゴリズムは、過去のデータを徐々に捨てたり減らしたりすることでポリシーをローカライズする。
しかし、多くの設定では、歴史的データは報酬モデルに関する部分的な情報を持っている可能性がある。
我々は、報酬モデルが定常成分と非定常成分に分解されることを前提として、変化に適応しながらそのようなデータを活用することを提案する。
この仮定に基づいて,過去のデータを用いて報酬モデルの不変性を学習し,それを利用してオンラインのパフォーマンスを向上させるアルゴリズムであるISD-linUCBを導入する。
我々は、不変性を活用することによって問題次元が減少し、十分な履歴データが利用可能であれば、急速に変化する環境において重大な後悔の種となることを理論的にも実証的にも示している。
関連論文リスト
- Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning [19.677969862434708]
本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
In-Context Approximation (ICA) は、モデルが候補の例でトレーニングした後のホールドアウト損失を推定する。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
論文 参考訳(メタデータ) (2025-10-16T09:00:39Z) - Disentangled Deep Smoothed Bootstrap for Fair Imbalanced Regression [1.2289361708127877]
不均衡分布学習は、予測モデリングにおいて一般的で重要な課題であり、しばしば標準アルゴリズムの性能を低下させる。
本稿では,変分オートエンコーダ(VAE)を用いてデータ分布の潜在表現をモデル化し,定義する。
そこで我々は,不整合なVAEと潜伏空間に適用されるスムーズなブートストラップを組み合わせた,革新的なデータ生成手法を開発した。
論文 参考訳(メタデータ) (2025-08-19T13:40:04Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Instance-Conditional Timescales of Decay for Non-Stationary Learning [11.90763787610444]
スローコンセプトドリフトは、機械学習システムにおいて、ユビキタスだが未研究の課題である。
大規模トレーニングウィンドウ上でのインスタンスの重要さのバランスをとるための最適化型アプローチを提案する。
9年間にわたる39万枚の写真からなる大規模な実世界のデータセットの実験では、精度が15%まで向上した。
論文 参考訳(メタデータ) (2022-12-12T14:16:26Z) - Non-Parametric Temporal Adaptation for Social Media Topic Classification [41.52878699836363]
縦断的ハッシュタグ予測の課題を通じて時間適応について検討した。
本手法は,高コストな勾配ベースの更新を伴わずに,最高のパラメトリックベースラインよりも64.12%向上する。
我々の高密度検索手法は、データプライバシ法に従って動的に削除されるユーザデータにも適しており、計算コストと性能損失は無視できる。
論文 参考訳(メタデータ) (2022-09-13T03:31:38Z) - ORFit: One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive Least-Squares [5.430441358049335]
本研究では,従来のデータポイントを再学習することなく,逐次到着するデータに対してモデルを訓練するワンパス学習の問題点について検討する。
我々は,従来のデータポイントの予測を最小限に変更しつつ,各データポイントに完全に適合するワンパス学習アルゴリズムOrthogonal Recursive Fitting (ORFit)を提案する。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free
Replay [52.251188477192336]
FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。
データリプレイの採用は驚くほど好都合である,という実証的な結果を通じて示します。
本研究では,実データにアクセスすることなく,ジェネレータによるデータ合成が可能なデータフリーリプレイを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:30:51Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。